Kako radi sinteza govora?

Analiza teksta i jezična obrada

Speaktor 2023-07-13

Sintetizatori govora mijenjaju kulturu radnog mjesta. Sinteza govora čita tekst. Pretvaranje teksta u govor je kada računalo čita riječ naglas. To znači da strojevi govore jednostavno i zvuče kao ljudi različite dobi i spola. Mehanizmi za pretvaranje teksta u govor postaju sve popularniji kako digitalne usluge rastu, a prepoznavanje glasa raste.

Što je sinteza govora?

Sinteza govora, također poznata kao pretvaranje teksta u govor (TTS sustav), računalno je generirana simulacija ljudskog glasa. Sintetizatori govora pretvaraju pisane riječi u govorni jezik.

Tijekom uobičajenog dana vjerojatno ćete se susresti s različitim vrstama sintetičkog govora. Tehnologija sinteze govora, potpomognuta aplikacijama, pametnim zvučnicima i bežičnim slušalicama, olakšava život poboljšavajući:

Pristupačnost: Ako ste slabovidni ili osoba s invaliditetom, možete koristiti sustav pretvaranja teksta u govor za čitanje tekstualnog sadržaja ili čitač zaslona za izgovaranje riječi naglas. Na primjer, sintetizator pretvaranja teksta u govor na TikToku popularna je značajka pristupačnosti koja svakome omogućuje korištenje vizualnog sadržaja društvenih medija.
Navigacija: Tijekom vožnje ne možete gledati kartu, ali možete slušati upute. Bez obzira na vaše odredište, većina GPS aplikacija može pružiti korisna glasovna upozorenja dok putujete, neke na više jezika.
Dostupna je glasovna pomoć. Inteligentni audio asistenti kao što su Siri (iPhone) i Alexa (Android) izvrsni su za multitasking, omogućujući vam da naručite pizzu ili slušate vremensku prognozu dok obavljate druge fizičke zadatke (npr. pranje suđa) zahvaljujući njihovoj razumljivosti. Iako ove pomoćnice povremeno griješe i često su dizajnirane kao podređeni ženski likovi, zvuče prilično životno.

Kakva je povijest sinteze govora?

Izumitelj Wolfgang von Kempelen zamalo je stigao tamo s mijehom i cijevima još u 18. stoljeću.
Godine 1928. Homer W. Dudley, američki znanstvenik iz Bell Laboratories/ Bell Labs, kreirao je Vocoder, elektronički analizator govora. Dudley razvija Vocoder u Voder, elektronički sintetizator govora kojim se upravlja preko tipkovnice.
Homer Dudley iz Bell Laboratoriesa demonstrirao je prvi funkcionalni glasovni sintesajzer na svijetu, Voder, na Svjetskom sajmu 1939. u New Yorku. Ljudski operater bio je potreban da upravlja tipkama i nožnom papučicom masivnog aparata nalik orguljama.
Istraživači su gradili Voder tijekom sljedećih nekoliko desetljeća. Prvi računalni sustavi za sintezu govora razvijeni su kasnih 1950-ih, a Bell Laboratories ponovno je ušao u povijest 1961. kada je fizičar John Larry Kelly Jr. održao predavanje na IBM 704.
Integrirani sklopovi omogućili su komercijalne proizvode za sintezu govora u telekomunikacijama i video igrama 1970-ih i 1980-ih. Vortex čip, korišten u arkadnim igrama, bio je jedan od prvih integriranih sklopova za sintezu govora.
Texas Instruments se proslavio 1980. sa sintesajzerom Speak N Spell, koji se koristio kao elektroničko pomagalo za čitanje za djecu.
Od ranih 1990-ih standardni računalni operativni sustavi uključuju sintetizatore govora, prvenstveno za diktiranje i transkripciju. Osim toga, TTS se sada koristi u razne svrhe, a sintetički su glasovi postali nevjerojatno precizni kako su umjetna inteligencija i strojno učenje napredovali.

Kako funkcionira sinteza govora?

Sinteza govora radi u tri faze: tekst u riječi, riječi u foneme i fonem u zvuk.

1. Tekst u riječi

Sinteza govora počinje prethodnom obradom ili normalizacijom, koja smanjuje dvosmislenost odabirom najboljeg načina za čitanje odlomka. Predobrada uključuje čitanje i čišćenje teksta, tako da ga računalo točnije čita. Brojevi, datumi, vremena, kratice, akronimi i posebni znakovi trebaju prijevod. Za određivanje najvjerojatnijeg izgovora koriste se statističkom vjerojatnošću ili neuronskim mrežama.

Homografi—riječi koje imaju sličan izgovor, ali različita značenja zahtijevaju obradu putem prethodne obrade. Također, sintetizator govora ne može razumjeti “prodajem auto” jer se “prodati” može izgovoriti “ćelija”. Po prepoznavanju pravopisa (“imam mobitel”) može se pogoditi da je “prodajem auto” točno. Rješenje za prepoznavanje govora za pretvaranje ljudskog glasa u tekst čak i sa složenim rječnikom.

2. Riječi fonemima

Nakon određivanja riječi, sintetizator govora proizvodi zvukove koji sadrže te riječi. Svako računalo zahtijeva pozamašan abecedni popis riječi i informacije o tome kako se svaka riječ izgovara. Trebao bi popis fonema koji čine zvuk svake riječi. Fonemi su ključni budući da u engleskoj abecedi postoji samo 26 slova, ali više od 40 fonema.

U teoriji, ako računalo ima rječnik riječi i fonema, sve što treba učiniti je pročitati riječ, potražiti je u rječniku, a zatim pročitati odgovarajuće foneme. Međutim, u praksi je mnogo složenije nego što se čini.

Alternativna metoda uključuje rastavljanje napisanih riječi u grafeme i generiranje fonema koji im odgovaraju pomoću jednostavnih pravila.

3. Fonemi za zvuk

Računalo je sada pretvorilo tekst u popis fonema. Ali kako pronaći osnovne foneme koje računalo čita naglas kada pretvara tekst u govor na različitim jezicima? Postoje tri pristupa tome.

Za početak, snimke ljudi koji govore da će se fonemi koristiti.
Drugi pristup je da računalo generira foneme koristeći osnovne zvučne frekvencije.
Konačni pristup je oponašanje tehnike ljudskog glasa u stvarnom vremenu prirodnim zvukom s visokokvalitetnim algoritmima.

Konkatenativna sinteza

Sintetizatori govora koji koriste snimljene ljudske glasove moraju imati unaprijed učitanu malu količinu ljudskog zvuka kojom se može manipulirati. Također, temelji se na ljudskom govoru koji je snimljen.

Što je sinteza formanta?

Formanti su 3-5 ključnih (rezonantnih) frekvencija zvuka koje generira i kombinira ljudska glasnica kako bi proizvela zvuk govora ili pjevanja. Formant govorni sintetizatori mogu reći bilo što, uključujući i nepostojeće i strane riječi za koje nikad nisu čuli. Za generiranje sintetiziranog govornog izlaza koriste se aditivna sinteza i sinteza fizičkog modeliranja.

Što je artikulacijska sinteza?

Artikulacijska sinteza tjera računala da govore simulirajući zamršeni ljudski vokalni trakt i artikulirajući proces koji se tamo događa. Zbog svoje složenosti, to je metoda koju je najmanje istraživača do sada najmanje proučavalo.

Ukratko, softver za glasovnu sintezu/sintezu teksta u govor omogućuje korisnicima da vide pisani tekst, čuju ga i čitaju naglas, sve u isto vrijeme. Različiti softveri koriste i računalno generirane i ljudske snimljene glasove. Sinteza govora postaje sve popularnija kako raste potražnja za angažmanom korisnika i racionalizacijom organizacijskih procesa. Olakšava dugoročnu profitabilnost.