Syntetizátory reči menia kultúru na pracovisku. Text prečíta syntéza reči. Prevod textu na reč je, keď počítač číta slovo nahlas. Ide o to, aby stroje hovorili jednoducho a zneli ako ľudia rôzneho veku a pohlavia. S rozvojom digitálnych služieb a rozpoznávania hlasu sú čoraz populárnejšie aj mechanizmy na prevod textu na reč.

Čo je syntéza reči?

Syntéza reči, známa aj ako systém prevodu textu na reč (TTS), je počítačom vytvorená simulácia ľudského hlasu. Syntetizátory reči premieňajú písané slová na hovorený jazyk.

Počas bežného dňa sa pravdepodobne stretnete s rôznymi typmi syntetickej reči. Technológia syntézy reči, ktorú podporujú aplikácie, inteligentné reproduktory a bezdrôtové slúchadlá, uľahčuje život tým, že zlepšuje:

Aká je história syntézy reči?

Ako funguje syntéza reči?

Syntéza reči prebieha v troch fázach: text na slová, slová na fonémy a fonémy na zvuk.

1. Text na slová

Syntéza reči sa začína predbežným spracovaním alebo normalizáciou, ktorá znižuje nejednoznačnosť výberom najlepšieho spôsobu čítania úryvku. Predbežné spracovanie zahŕňa čítanie a čistenie textu, aby ho počítač prečítal presnejšie. Čísla, dátumy, časy, skratky, akronymy a špeciálne znaky je potrebné preložiť. Na určenie najpravdepodobnejšej výslovnosti používajú štatistickú pravdepodobnosť alebo neurónové siete.

Homografy – slová, ktoré majú podobnú výslovnosť, ale odlišný význam, si vyžadujú spracovanie pred spracovaním. Syntetizátor reči tiež nerozumie slovu „predávam auto“, pretože slovo „predávať“ sa môže vyslovovať ako „bunka“. Podľa pravopisu („Mám mobilný telefón“) možno usúdiť, že správne je „Predám auto“. Riešenie na rozpoznávanie reči na transformáciu ľudského hlasu na text aj so zložitou slovnou zásobou.

2. Premena slov na fonémy

Po určení slov syntetizátor reči produkuje zvuky obsahujúce tieto slová. Každý počítač potrebuje rozsiahly abecedný zoznam slov a informácie o tom, ako sa jednotlivé slová vyslovujú. Potrebovali by zoznam foném, ktoré tvoria zvuk každého slova. Fonémy sú veľmi dôležité, pretože v anglickej abecede je len 26 písmen, ale viac ako 40 foném.

Teoreticky, ak má počítač k dispozícii slovník slov a foném, stačí, aby si prečítal slovo, vyhľadal ho v slovníku a potom prečítal príslušné fonémy. V praxi je to však oveľa zložitejšie, ako sa zdá.

Alternatívna metóda zahŕňa rozklad písaných slov na grafémy a generovanie foném, ktoré im zodpovedajú, pomocou jednoduchých pravidiel.

3. Fonémy na zvuk

Počítač teraz previedol text na zoznam foném. Ako však zistiť základné fonémy, ktoré počítač nahlas prečíta pri prevode textu na reč v rôznych jazykoch? Existujú tri prístupy.

Konkatenatívna syntéza

Syntetizátory reči, ktoré používajú nahrané ľudské hlasy, musia byť vopred vybavené malým množstvom ľudského zvuku, s ktorým sa dá manipulovať. Je tiež založený na ľudskej reči, ktorá bola zaznamenaná.

Čo je formantová syntéza?

Formanty sú 3 – 5 kľúčových (rezonančných) frekvencií zvuku, ktoré vytvára a kombinuje ľudská hlasivka, aby vytvorila zvuk reči alebo spevu. Formantové syntetizátory reči dokážu povedať čokoľvek vrátane neexistujúcich a cudzích slov, o ktorých nikdy nepočuli. Na generovanie syntetizovaného rečového výstupu sa používa aditívna syntéza a syntéza fyzikálnym modelovaním.

Čo je artikulačná syntéza?

Artikulačná syntéza umožňuje počítačom hovoriť simuláciou zložitého ľudského hlasového ústrojenstva a artikuláciou procesov, ktoré v ňom prebiehajú. Vzhľadom na svoju zložitosť je to metóda, ktorú doteraz skúmalo najmenej výskumníkov.

Stručne povedané, softvér na syntézu hlasu/syntézu textu na reč umožňuje používateľom vidieť písaný text, počuť ho a čítať ho nahlas v rovnakom čase. Rôzny softvér využíva počítačom generované aj ľudskou rukou nahrané hlasy. Syntéza reči je čoraz populárnejšia, pretože rastie dopyt po zapojení zákazníkov a zefektívnení organizačných procesov. Uľahčuje dlhodobú ziskovosť.