Sintetizatorji govora spreminjajo kulturo na delovnem mestu. Besedilo prebere sinteza govora. Pri pretvorbi besedila v govor gre za to, da računalnik glasno prebere besedo. Stroji naj bi govorili preprosto in zveneli kot ljudje različnih starosti in spolov. Motorji za pretvorbo besedila v govor postajajo vse bolj priljubljeni z razvojem digitalnih storitev in prepoznavanja glasu .
Kaj je sinteza govora?
Sinteza govora, znana tudi kot sistem TTS (angl. text-to-speech), je računalniško generirana simulacija človeškega glasu. Sintetizatorji govora pretvorijo pisane besede v govorjeni jezik.
V običajnem dnevu boste verjetno naleteli na različne vrste sintetičnega govora. Tehnologija sinteze govora s pomočjo aplikacij, pametnih zvočnikov in brezžičnih slušalk lajša življenje, saj izboljšuje:
- Dostopnost: Če ste slabovidni ali invalidni, lahko za branje besedilne vsebine uporabite sistem za pretvorbo besedila v govor ali bralnik zaslona za glasno izgovarjanje besed. Sintetizator za pretvorbo besedila v govor v storitvi TikTok je na primer priljubljena funkcija za dostopnost, ki vsakomur omogoča, da uživa vizualne vsebine družabnih medijev.
- Navigacija: Med vožnjo ne morete gledati zemljevida, lahko pa poslušate navodila. Ne glede na cilj lahko večina aplikacij GPS med potovanjem posreduje koristna glasovna opozorila, nekatera tudi v več jezikih.
- Na voljo je glasovna pomoč. Inteligentni zvočni pomočniki, kot sta Siri (iPhone) in Alexa (Android), so odlični za večopravilnost, saj lahko zaradi svoje razumljivosti naročite pico ali poslušate vremensko napoved, medtem ko opravljate druga fizična opravila (npr. pomivate posodo). Čeprav ti pomočniki občasno delajo napake in so pogosto zasnovani kot podrejeni ženski liki, zvenijo precej realistično.
Kakšna je zgodovina sinteze govora?
- Izumitelj Wolfgang von Kempelen je v 18. stoletju z mehom in cevmi skoraj dosegel to.
- Leta 1928 je Homer W. Dudley, ameriški znanstvenik v Bellovih laboratorijih, izdelal vokoder, elektronski analizator govora. Dudley razvije Vocoder v Voder, elektronski sintetizator govora, ki se upravlja s tipkovnico.
- Homer Dudley iz Bellovih laboratorijev je na svetovni razstavi leta 1939 v New Yorku predstavil prvi funkcionalni sintetizator glasu na svetu, Voder. Za upravljanje tipk in nožnega pedala ogromnega aparata, podobnega orglam, je bil potreben človeški upravljavec.
- V naslednjih desetletjih so raziskovalci nadgradili sistem Voder. Prvi računalniški sistemi za sintezo govora so bili razviti v poznih petdesetih letih prejšnjega stoletja, Bellovi laboratoriji pa so se ponovno zapisali v zgodovino leta 1961, ko je fizik John Larry Kelly Jr. govoril z IBM 704.
- Integrirana vezja so v 70. in 80. letih prejšnjega stoletja omogočila komercialne izdelke za sintezo govora v telekomunikacijah in videoigrah. Čip Vortex, ki se je uporabljal v arkadnih igrah, je bil eno prvih integriranih vezij za sintezo govora.
- Texas Instruments je leta 1980 zaslovel s sintetizatorjem Speak N Spell, ki se je uporabljal kot elektronski pripomoček za branje za otroke.
- Od začetka devetdesetih let prejšnjega stoletja standardni računalniški operacijski sistemi vključujejo sintetizatorje govora, predvsem za narekovanje in prepisovanje. Poleg tega se TTS zdaj uporablja za različne namene, sintetični glasovi pa so z napredkom umetne inteligence in strojnega učenja postali izjemno natančni.
Kako deluje sinteza govora?
Sinteza govora poteka v treh fazah: iz besedila v besede, iz besed v foneme in iz fonemov v zvok.
1. Besedilo v besede
Sinteza govora se začne s predobdelavo ali normalizacijo, ki zmanjša dvoumnost z izbiro najboljšega načina branja odlomka. Predobdelava vključuje branje in čiščenje besedila, tako da ga računalnik natančneje prebere. Številke, datumi, časi, okrajšave, kratice in posebni znaki potrebujejo prevod. Za določitev najverjetnejše izgovarjave uporabljajo statistično verjetnost ali nevronske mreže.
Homografije – besede, ki imajo podobno izgovorjavo, vendar različne pomene, je treba predhodno obdelati. Poleg tega sintetizator govora ne more razumeti stavka “prodam avto”, ker se beseda “prodam” lahko izgovori kot “celica”. S prepoznavanjem pravopisa (“Imam mobilni telefon”) lahko uganemo, da je pravilno “Prodam avto”. Rešitev za prepoznavanje govora za pretvorbo človeškega glasu v besedilo tudi z zapletenim besediščem.
2. Besede v foneme
Po določitvi besed sintetizator govora ustvari zvoke, ki vsebujejo te besede. Vsak računalnik potrebuje obsežen abecedni seznam besed in informacije o tem, kako izgovoriti vsako besedo. Potrebovali bi seznam fonemov, ki tvorijo zvok posamezne besede. Fonemi so ključnega pomena, saj je v angleški abecedi le 26 črk, a več kot 40 fonemov.
Če ima računalnik slovar besed in fonemov, mora teoretično le prebrati besedo, jo poiskati v slovarju in nato prebrati ustrezne foneme. Vendar je v praksi veliko bolj zapletena, kot se zdi.
Druga metoda vključuje razčlenitev zapisanih besed na grafeme in generiranje fonemov, ki jim ustrezajo, z uporabo preprostih pravil.
3. Fonemi za zvok
Računalnik je besedilo pretvoril v seznam fonemov. Toda kako najti osnovne foneme, ki jih računalnik glasno prebere pri pretvorbi besedila v govor v različnih jezikih? Pri tem obstajajo trije pristopi.
- Za začetek bodo uporabljeni posnetki ljudi, ki izgovarjajo foneme.
- Drugi pristop je, da računalnik ustvarja foneme s pomočjo osnovnih zvočnih frekvenc.
- Zadnji pristop je posnemanje tehnike človeškega glasu v realnem času z naravnim zvokom z visokokakovostnimi algoritmi.
Konkatenativna sinteza
Sintetizatorji govora, ki uporabljajo posnete človeške glasove, morajo biti vnaprej opremljeni z majhno količino človeškega zvoka, s katerim je mogoče manipulirati. Poleg tega temelji na posnetem človeškem govoru.
Kaj je sinteza formantov?
Formante so 3-5 ključnih (resonančnih) zvočnih frekvenc, ki jih ustvarja in združuje človeška glasilka, da nastane zvok govora ali petja. Formantni sintetizatorji govora lahko povedo karkoli, tudi neobstoječe in tuje besede, za katere še nikoli niso slišali. Za generiranje sintetiziranega govornega rezultata se uporabljata aditivna sinteza in sinteza s fizičnim modeliranjem.
Kaj je artikulacijska sinteza?
Artikulacijska sinteza omogoča, da računalniki govorijo tako, da simulirajo zapletene človeške glasilke in artikulirajo procese, ki se v njih odvijajo. Zaradi svoje zapletenosti je to metoda, ki jo je doslej najmanj raziskovalcev preučevalo.
Skratka, programska oprema za sintezo glasu/sintezo besedila v govor uporabnikom omogoča, da hkrati vidijo, slišijo in glasno preberejo napisano besedilo. Različna programska oprema uporablja tako računalniško ustvarjene kot človeške glasove. Sinteza govora postaja vse bolj priljubljena zaradi vse večjega povpraševanja po sodelovanju s strankami in racionalizaciji organizacijskih procesov. Omogoča dolgoročno dobičkonosnost.