Ako funguje syntéza reči?

Analýza textu a jazykové spracovanie

Speaktor 2023-07-13

Syntetizátory reči menia kultúru na pracovisku. Text prečíta syntéza reči. Prevod textu na reč je, keď počítač číta slovo nahlas. Ide o to, aby stroje hovorili jednoducho a zneli ako ľudia rôzneho veku a pohlavia. S rozvojom digitálnych služieb a rozpoznávania hlasu sú čoraz populárnejšie aj mechanizmy na prevod textu na reč.

Čo je syntéza reči?

Syntéza reči, známa aj ako systém prevodu textu na reč (TTS), je počítačom vytvorená simulácia ľudského hlasu. Syntetizátory reči premieňajú písané slová na hovorený jazyk.

Počas bežného dňa sa pravdepodobne stretnete s rôznymi typmi syntetickej reči. Technológia syntézy reči, ktorú podporujú aplikácie, inteligentné reproduktory a bezdrôtové slúchadlá, uľahčuje život tým, že zlepšuje:

Prístupnosť: Ak ste zrakovo postihnutí alebo zdravotne postihnutí, môžete na čítanie textového obsahu použiť systém prevodu textu na reč alebo čítačku obrazovky, ktorá nahlas vyslovuje slová. Napríklad syntetizátor prevodu textu na reč v službe TikTok je populárna funkcia prístupnosti, ktorá umožňuje každému konzumovať vizuálny obsah sociálnych médií.
Navigácia: Počas jazdy sa nemôžete pozerať na mapu, ale môžete počúvať pokyny. Väčšina aplikácií GPS vám počas cesty poskytne užitočné hlasové upozornenia, niektoré aj vo viacerých jazykoch.
K dispozícii je hlasová asistencia. Inteligentní zvukoví asistenti, ako sú Siri (iPhone) a Alexa (Android), sú vynikajúci na multitasking, pretože vďaka svojej zrozumiteľnosti umožňujú objednať pizzu alebo počúvať predpoveď počasia a zároveň vykonávať iné fyzické úlohy (napr. umývať riad). Hoci títo asistenti občas robia chyby a často sú navrhnutí ako podriadené ženské postavy, pôsobia celkom realisticky.

Aká je história syntézy reči?

Vynálezca Wolfgang von Kempelen to v 18. storočí takmer dokázal pomocou mechov a rúrok.
V roku 1928 Homer W. Dudley, americký vedec v Bellových laboratóriách, vytvoril Vocoder, elektronický analyzátor reči. Dudley vyvíja Vocoder na Voder, elektronický syntetizátor reči ovládaný pomocou klávesnice.
Homer Dudley zo spoločnosti Bell Laboratories predviedol na Svetovej výstave v New Yorku v roku 1939 prvý funkčný hlasový syntetizátor na svete – Voder. Na ovládanie klávesov a nožného pedálu masívneho prístroja podobného organu bol potrebný ľudský operátor.
V nasledujúcich desaťročiach výskumníci na Voderovi stavali. Prvé počítačové systémy na syntézu reči boli vyvinuté koncom 50. rokov 20. storočia a Bellove laboratóriá sa opäť zapísali do histórie v roku 1961, keď fyzik John Larry Kelly Jr. predniesol prednášku na počítači IBM 704.
Integrované obvody umožnili komerčné produkty syntézy reči v telekomunikáciách a videohrách v 70. a 80. rokoch 20. storočia. Čip Vortex, používaný v arkádových hrách, bol jedným z prvých integrovaných obvodov na syntézu reči.
Spoločnosť Texas Instruments sa preslávila v roku 1980 syntetizátorom Speak N Spell, ktorý sa používal ako elektronická pomôcka na čítanie pre deti.
Od začiatku 90. rokov 20. storočia sú súčasťou štandardných počítačových operačných systémov syntetizátory reči, ktoré slúžia najmä na diktovanie a prepisovanie. Okrem toho sa TTS v súčasnosti využíva na rôzne účely a syntetické hlasy sa vďaka pokroku v oblasti umelej inteligencie a strojového učenia stali mimoriadne presnými.

Ako funguje syntéza reči?

Syntéza reči prebieha v troch fázach: text na slová, slová na fonémy a fonémy na zvuk.

1. Text na slová

Syntéza reči sa začína predbežným spracovaním alebo normalizáciou, ktorá znižuje nejednoznačnosť výberom najlepšieho spôsobu čítania úryvku. Predbežné spracovanie zahŕňa čítanie a čistenie textu, aby ho počítač prečítal presnejšie. Čísla, dátumy, časy, skratky, akronymy a špeciálne znaky je potrebné preložiť. Na určenie najpravdepodobnejšej výslovnosti používajú štatistickú pravdepodobnosť alebo neurónové siete.

Homografy – slová, ktoré majú podobnú výslovnosť, ale odlišný význam, si vyžadujú spracovanie pred spracovaním. Syntetizátor reči tiež nerozumie slovu „predávam auto“, pretože slovo „predávať“ sa môže vyslovovať ako „bunka“. Podľa pravopisu („Mám mobilný telefón“) možno usúdiť, že správne je „Predám auto“. Riešenie na rozpoznávanie reči na transformáciu ľudského hlasu na text aj so zložitou slovnou zásobou.

2. Premena slov na fonémy

Po určení slov syntetizátor reči produkuje zvuky obsahujúce tieto slová. Každý počítač potrebuje rozsiahly abecedný zoznam slov a informácie o tom, ako sa jednotlivé slová vyslovujú. Potrebovali by zoznam foném, ktoré tvoria zvuk každého slova. Fonémy sú veľmi dôležité, pretože v anglickej abecede je len 26 písmen, ale viac ako 40 foném.

Teoreticky, ak má počítač k dispozícii slovník slov a foném, stačí, aby si prečítal slovo, vyhľadal ho v slovníku a potom prečítal príslušné fonémy. V praxi je to však oveľa zložitejšie, ako sa zdá.

Alternatívna metóda zahŕňa rozklad písaných slov na grafémy a generovanie foném, ktoré im zodpovedajú, pomocou jednoduchých pravidiel.

3. Fonémy na zvuk

Počítač teraz previedol text na zoznam foném. Ako však zistiť základné fonémy, ktoré počítač nahlas prečíta pri prevode textu na reč v rôznych jazykoch? Existujú tri prístupy.

Na začiatku sa použijú nahrávky ľudí vyslovujúcich fonémy.
Druhý prístup spočíva v tom, že počítač generuje fonémy pomocou základných zvukových frekvencií.
Posledným prístupom je napodobňovanie techniky ľudského hlasu v reálnom čase prirodzeným zvukom pomocou vysokokvalitných algoritmov.

Konkatenatívna syntéza

Syntetizátory reči, ktoré používajú nahrané ľudské hlasy, musia byť vopred vybavené malým množstvom ľudského zvuku, s ktorým sa dá manipulovať. Je tiež založený na ľudskej reči, ktorá bola zaznamenaná.

Čo je formantová syntéza?

Formanty sú 3 – 5 kľúčových (rezonančných) frekvencií zvuku, ktoré vytvára a kombinuje ľudská hlasivka, aby vytvorila zvuk reči alebo spevu. Formantové syntetizátory reči dokážu povedať čokoľvek vrátane neexistujúcich a cudzích slov, o ktorých nikdy nepočuli. Na generovanie syntetizovaného rečového výstupu sa používa aditívna syntéza a syntéza fyzikálnym modelovaním.

Čo je artikulačná syntéza?

Artikulačná syntéza umožňuje počítačom hovoriť simuláciou zložitého ľudského hlasového ústrojenstva a artikuláciou procesov, ktoré v ňom prebiehajú. Vzhľadom na svoju zložitosť je to metóda, ktorú doteraz skúmalo najmenej výskumníkov.

Stručne povedané, softvér na syntézu hlasu/syntézu textu na reč umožňuje používateľom vidieť písaný text, počuť ho a čítať ho nahlas v rovnakom čase. Rôzny softvér využíva počítačom generované aj ľudskou rukou nahrané hlasy. Syntéza reči je čoraz populárnejšia, pretože rastie dopyt po zapojení zákazníkov a zefektívnení organizačných procesov. Uľahčuje dlhodobú ziskovosť.