Jak działa synteza mowy?

Analiza tekstu i przetwarzanie językowe

Speaktor 2023-07-13

Syntezatory mowy zmieniają kulturę miejsca pracy. Synteza mowy odczytuje tekst. Funkcja Text-to-speech polega na tym, że komputer odczytuje słowo na głos. Chodzi o to, by maszyny mówiły prosto i brzmiały jak ludzie w różnym wieku i różnej płci. Silniki text-to-speech stają się coraz bardziej popularne wraz z rozwojem usług cyfrowych i rozpoznawaniem głosu .

Czym jest synteza mowy?

Synteza mowy, znana również jako system text-to-speech (TTS), to komputerowo generowana symulacja ludzkiego głosu. Syntezatory mowy przetwarzają słowa pisane na język mówiony.

W ciągu typowego dnia prawdopodobnie spotkasz się z różnymi rodzajami mowy syntetycznej. Technologia syntezy mowy, wspomagana przez aplikacje, inteligentne głośniki i bezprzewodowe słuchawki, ułatwia życie, usprawniając je:

Dostępność: Osoby niedowidzące lub niepełnosprawne mogą korzystać z systemu text to speech do odczytywania treści tekstowych lub czytnika ekranu do wypowiadania słów na głos. Na przykład syntezator mowy na TikTok jest popularną funkcją dostępności, która pozwala każdemu konsumować wizualne treści mediów społecznościowych.
Nawigacja: Podczas jazdy nie można patrzeć na mapę, ale można słuchać instrukcji. Niezależnie od celu podróży, większość aplikacji GPS może zapewnić pomocne ostrzeżenia głosowe w trakcie podróży, niektóre w wielu językach.
Dostępna jest pomoc głosowa. Inteligentni asystenci audio, tacy jak Siri (iPhone) i Alexa (Android), dzięki swojej zrozumiałości doskonale sprawdzają się w wielozadaniowości, pozwalając na zamówienie pizzy lub wysłuchanie prognozy pogody podczas wykonywania innych zadań fizycznych (np. zmywania naczyń). Choć asystenci ci czasami popełniają błędy i często są zaprojektowani jako posłuszne postacie kobiece, brzmią całkiem realistycznie.

Jaka jest historia syntezy mowy?

Wynalazca Wolfgang von Kempelen w XVIII wieku prawie osiągnął ten cel za pomocą miechów i rur.
W 1928 roku Homer W. Dudley, amerykański naukowiec z Bell Laboratories/ Bell Labs, stworzył Vocoder, elektroniczny analizator mowy. Dudley rozwija Vocoder w Voder, elektroniczny syntezator mowy obsługiwany za pomocą klawiatury.
Homer Dudley z Bell Laboratories zademonstrował pierwszy na świecie funkcjonalny syntezator głosu, Voder, na Targach Światowych w Nowym Jorku w 1939 roku. Do obsługi masywnego, organopodobnego aparatu wymagany był ludzki operator, który obsługiwał klawisze i pedał nożny.
Naukowcy budowali na Voderze przez następne kilkadziesiąt lat. Pierwsze komputerowe systemy syntezy mowy powstały pod koniec lat pięćdziesiątych, a Bell Laboratories ponownie przeszło do historii w 1961 roku, gdy fizyk John Larry Kelly Jr. wygłosił pogadankę na temat IBM 704.
Układy scalone umożliwiły wprowadzenie komercyjnych produktów do syntezy mowy w telekomunikacji i grach wideo w latach 70. i 80. Układ Vortex, stosowany w grach zręcznościowych, był jednym z pierwszych układów scalonych z syntezą mowy.
Firma Texas Instruments zasłynęła w 1980 roku z syntezatora Speak N Spell, który był wykorzystywany jako elektroniczna pomoc w czytaniu dla dzieci.
Od początku lat 90. ubiegłego wieku standardowe komputerowe systemy operacyjne zawierają syntezatory mowy, głównie do dyktowania i transkrypcji. Ponadto TTS jest obecnie wykorzystywany do różnych celów, a syntetyczne głosy stały się niezwykle dokładne wraz z postępem sztucznej inteligencji i uczenia maszynowego.

Jak działa synteza mowy?

Synteza mowy działa w trzech etapach: tekst na słowa, słowa na fonemy i fonemy na dźwięk.

1. Tekst na słowa

Synteza mowy rozpoczyna się od wstępnego przetwarzania lub normalizacji, która zmniejsza niejednoznaczność poprzez wybór najlepszego sposobu odczytania fragmentu. Przetwarzanie wstępne polega na czytaniu i czyszczeniu tekstu, dzięki czemu komputer odczytuje go dokładniej. Liczby, daty, godziny, skróty, akronimy i znaki specjalne wymagają tłumaczenia. Aby określić najbardziej prawdopodobną wymowę, wykorzystują prawdopodobieństwo statystyczne lub sieci neuronowe.

Homografy – słowa, które mają podobną wymowę, ale różne znaczenia, wymagają obsługi przez przetwarzanie wstępne. Również syntezator mowy nie zrozumie „sprzedaję samochód”, ponieważ „sell” można wymówić jako „cell”. Rozpoznając pisownię („mam komórkę”), można się domyślić, że „sprzedaję samochód” jest poprawne. Rozwiązanie w zakresie rozpoznawania mowy, pozwalające na przekształcenie ludzkiego głosu w tekst, nawet o złożonym słownictwie.

2. Słowa na fonemy

Po ustaleniu słów, syntezator mowy wytwarza dźwięki zawierające te słowa. Każdy komputer wymaga sporej alfabetycznej listy słów i informacji o tym, jak wymawiać poszczególne słowa. Potrzebowaliby listy fonemów, które składają się na brzmienie każdego słowa. Fonemy są kluczowe, ponieważ w angielskim alfabecie jest tylko 26 liter, ale ponad 40 fonemów.

W teorii, jeśli komputer ma słownik słów i fonemów, wszystko, co musi zrobić, to przeczytać słowo, sprawdzić je w słowniku, a następnie odczytać odpowiadające mu fonemy. W praktyce jednak jest to znacznie bardziej skomplikowane niż się wydaje.

Metoda alternatywna polega na rozbiciu napisanych słów na grafemy i wygenerowaniu odpowiadających im fonemów za pomocą prostych reguł.

3. Fonem do dźwięku

Komputer przetworzył teraz tekst na listę fonemów. Ale jak znaleźć podstawowe fonemy, które komputer odczytuje na głos, gdy zamienia tekst na mowę w różnych językach? Istnieją trzy podejścia do tego zagadnienia.

Na początek wykorzystane zostaną nagrania ludzi wypowiadających fonemy.
Drugie podejście polega na generowaniu przez komputer fonemów przy użyciu podstawowych częstotliwości dźwięku.
Ostateczne podejście polega na naśladowaniu techniki ludzkiego głosu w czasie rzeczywistym poprzez naturalne brzmienie za pomocą wysokiej jakości algorytmów.

Synteza konkatenacyjna

Syntezatory mowy, które wykorzystują nagrane głosy ludzkie, muszą być wstępnie załadowane niewielką ilością ludzkiego dźwięku, którym można manipulować. Ponadto opiera się na nagranej ludzkiej mowie.

Co to jest Synteza Formantu?

Formanty to 3-5 kluczowych (rezonansowych) częstotliwości dźwięku generowanych i łączonych przez ludzką strunę głosową w celu wytworzenia dźwięku mowy lub śpiewu. Formantowe syntezatory mowy mogą powiedzieć wszystko, łącznie z nieistniejącymi i obcymi słowami, o których nigdy nie słyszeli. Do generowania syntezy mowy wykorzystuje się syntezę addytywną oraz syntezę z modelowaniem fizycznym.

Co to jest synteza artykulacyjna?

Synteza artykulacyjna to sprawienie, by komputery mówiły poprzez symulację skomplikowanej ludzkiej traktu głosowego i artykulacji procesu, który tam zachodzi. Ze względu na swoją złożoność jest to metoda, którą do tej pory najmniej badaczy.

W skrócie, oprogramowanie do syntezy głosu / syntezy mowy pozwala użytkownikom widzieć tekst pisany, słyszeć go i czytać na głos w tym samym czasie. Różne programy wykorzystują zarówno głosy generowane przez komputer, jak i nagrane przez człowieka. Synteza mowy staje się coraz bardziej popularna wraz z rosnącym zapotrzebowaniem na zaangażowanie klientów i usprawnianie procesów organizacyjnych. Ułatwia to osiągnięcie długoterminowej rentowności.