Sintetizatorji govora spreminjajo kulturo na delovnem mestu. Besedilo prebere sinteza govora. Pri pretvorbi besedila v govor gre za to, da računalnik glasno prebere besedo. Stroji naj bi govorili preprosto in zveneli kot ljudje različnih starosti in spolov. Motorji za pretvorbo besedila v govor postajajo vse bolj priljubljeni z razvojem digitalnih storitev in prepoznavanja glasu.

Kaj je sinteza govora?

Sinteza govora, znana tudi kot sistem TTS (angl. text-to-speech), je računalniško generirana simulacija človeškega glasu. Sintetizatorji govora pretvorijo pisane besede v govorjeni jezik.

V običajnem dnevu boste verjetno naleteli na različne vrste sintetičnega govora. Tehnologija sinteze govora s pomočjo aplikacij, pametnih zvočnikov in brezžičnih slušalk lajša življenje, saj izboljšuje:

Kakšna je zgodovina sinteze govora?

Kako deluje sinteza govora?

Sinteza govora poteka v treh fazah: iz besedila v besede, iz besed v foneme in iz fonemov v zvok.

1. Besedilo v besede

Sinteza govora se začne s predobdelavo ali normalizacijo, ki zmanjša dvoumnost z izbiro najboljšega načina branja odlomka. Predobdelava vključuje branje in čiščenje besedila, tako da ga računalnik natančneje prebere. Številke, datumi, časi, okrajšave, kratice in posebni znaki potrebujejo prevod. Za določitev najverjetnejše izgovarjave uporabljajo statistično verjetnost ali nevronske mreže.

Homografije – besede, ki imajo podobno izgovorjavo, vendar različne pomene, je treba predhodno obdelati. Poleg tega sintetizator govora ne more razumeti stavka “prodam avto”, ker se beseda “prodam” lahko izgovori kot “celica”. S prepoznavanjem pravopisa (“Imam mobilni telefon”) lahko uganemo, da je pravilno “Prodam avto”. Rešitev za prepoznavanje govora za pretvorbo človeškega glasu v besedilo tudi z zapletenim besediščem.

2. Besede v foneme

Po določitvi besed sintetizator govora ustvari zvoke, ki vsebujejo te besede. Vsak računalnik potrebuje obsežen abecedni seznam besed in informacije o tem, kako izgovoriti vsako besedo. Potrebovali bi seznam fonemov, ki tvorijo zvok posamezne besede. Fonemi so ključnega pomena, saj je v angleški abecedi le 26 črk, a več kot 40 fonemov.

Če ima računalnik slovar besed in fonemov, mora teoretično le prebrati besedo, jo poiskati v slovarju in nato prebrati ustrezne foneme. Vendar je v praksi veliko bolj zapletena, kot se zdi.

Druga metoda vključuje razčlenitev zapisanih besed na grafeme in generiranje fonemov, ki jim ustrezajo, z uporabo preprostih pravil.

3. Fonemi za zvok

Računalnik je besedilo pretvoril v seznam fonemov. Toda kako najti osnovne foneme, ki jih računalnik glasno prebere pri pretvorbi besedila v govor v različnih jezikih? Pri tem obstajajo trije pristopi.

Konkatenativna sinteza

Sintetizatorji govora, ki uporabljajo posnete človeške glasove, morajo biti vnaprej opremljeni z majhno količino človeškega zvoka, s katerim je mogoče manipulirati. Poleg tega temelji na posnetem človeškem govoru.

Kaj je sinteza formantov?

Formante so 3-5 ključnih (resonančnih) zvočnih frekvenc, ki jih ustvarja in združuje človeška glasilka, da nastane zvok govora ali petja. Formantni sintetizatorji govora lahko povedo karkoli, tudi neobstoječe in tuje besede, za katere še nikoli niso slišali. Za generiranje sintetiziranega govornega rezultata se uporabljata aditivna sinteza in sinteza s fizičnim modeliranjem.

Kaj je artikulacijska sinteza?

Artikulacijska sinteza omogoča, da računalniki govorijo tako, da simulirajo zapletene človeške glasilke in artikulirajo procese, ki se v njih odvijajo. Zaradi svoje zapletenosti je to metoda, ki jo je doslej najmanj raziskovalcev preučevalo.

Skratka, programska oprema za sintezo glasu/sintezo besedila v govor uporabnikom omogoča, da hkrati vidijo, slišijo in glasno preberejo napisano besedilo. Različna programska oprema uporablja tako računalniško ustvarjene kot človeške glasove. Sinteza govora postaja vse bolj priljubljena zaradi vse večjega povpraševanja po sodelovanju s strankami in racionalizaciji organizacijskih procesov. Omogoča dolgoročno dobičkonosnost.