Sintetizatori govora mijenjaju kulturu radnog mjesta. Sinteza govora čita tekst. Pretvaranje teksta u govor je kada računalo čita riječ naglas. To znači da strojevi govore jednostavno i zvuče kao ljudi različite dobi i spola. Mehanizmi za pretvaranje teksta u govor postaju sve popularniji kako digitalne usluge rastu, a prepoznavanje glasa raste.

Što je sinteza govora?

Sinteza govora, također poznata kao pretvaranje teksta u govor (TTS sustav), računalno je generirana simulacija ljudskog glasa. Sintetizatori govora pretvaraju pisane riječi u govorni jezik.

Tijekom uobičajenog dana vjerojatno ćete se susresti s različitim vrstama sintetičkog govora. Tehnologija sinteze govora, potpomognuta aplikacijama, pametnim zvučnicima i bežičnim slušalicama, olakšava život poboljšavajući:

Kakva je povijest sinteze govora?

Kako funkcionira sinteza govora?

Sinteza govora radi u tri faze: tekst u riječi, riječi u foneme i fonem u zvuk.

1. Tekst u riječi

Sinteza govora počinje prethodnom obradom ili normalizacijom, koja smanjuje dvosmislenost odabirom najboljeg načina za čitanje odlomka. Predobrada uključuje čitanje i čišćenje teksta, tako da ga računalo točnije čita. Brojevi, datumi, vremena, kratice, akronimi i posebni znakovi trebaju prijevod. Za određivanje najvjerojatnijeg izgovora koriste se statističkom vjerojatnošću ili neuronskim mrežama.

Homografi—riječi koje imaju sličan izgovor, ali različita značenja zahtijevaju obradu putem prethodne obrade. Također, sintetizator govora ne može razumjeti “prodajem auto” jer se “prodati” može izgovoriti “ćelija”. Po prepoznavanju pravopisa (“imam mobitel”) može se pogoditi da je “prodajem auto” točno. Rješenje za prepoznavanje govora za pretvaranje ljudskog glasa u tekst čak i sa složenim rječnikom.

2. Riječi fonemima

Nakon određivanja riječi, sintetizator govora proizvodi zvukove koji sadrže te riječi. Svako računalo zahtijeva pozamašan abecedni popis riječi i informacije o tome kako se svaka riječ izgovara. Trebao bi popis fonema koji čine zvuk svake riječi. Fonemi su ključni budući da u engleskoj abecedi postoji samo 26 slova, ali više od 40 fonema.

U teoriji, ako računalo ima rječnik riječi i fonema, sve što treba učiniti je pročitati riječ, potražiti je u rječniku, a zatim pročitati odgovarajuće foneme. Međutim, u praksi je mnogo složenije nego što se čini.

Alternativna metoda uključuje rastavljanje napisanih riječi u grafeme i generiranje fonema koji im odgovaraju pomoću jednostavnih pravila.

3. Fonemi za zvuk

Računalo je sada pretvorilo tekst u popis fonema. Ali kako pronaći osnovne foneme koje računalo čita naglas kada pretvara tekst u govor na različitim jezicima? Postoje tri pristupa tome.

Konkatenativna sinteza

Sintetizatori govora koji koriste snimljene ljudske glasove moraju imati unaprijed učitanu malu količinu ljudskog zvuka kojom se može manipulirati. Također, temelji se na ljudskom govoru koji je snimljen.

Što je sinteza formanta?

Formanti su 3-5 ključnih (rezonantnih) frekvencija zvuka koje generira i kombinira ljudska glasnica kako bi proizvela zvuk govora ili pjevanja. Formant govorni sintetizatori mogu reći bilo što, uključujući i nepostojeće i strane riječi za koje nikad nisu čuli. Za generiranje sintetiziranog govornog izlaza koriste se aditivna sinteza i sinteza fizičkog modeliranja.

Što je artikulacijska sinteza?

Artikulacijska sinteza tjera računala da govore simulirajući zamršeni ljudski vokalni trakt i artikulirajući proces koji se tamo događa. Zbog svoje složenosti, to je metoda koju je najmanje istraživača do sada najmanje proučavalo.

Ukratko, softver za glasovnu sintezu/sintezu teksta u govor omogućuje korisnicima da vide pisani tekst, čuju ga i čitaju naglas, sve u isto vrijeme. Različiti softveri koriste i računalno generirane i ljudske snimljene glasove. Sinteza govora postaje sve popularnija kako raste potražnja za angažmanom korisnika i racionalizacijom organizacijskih procesa. Olakšava dugoročnu profitabilnost.