Jak funguje syntéza řeči?

Analýza textu a lingvistické zpracování

Speaktor 2023-07-13

Syntezátory řeči mění kulturu na pracovišti. Text přečte syntéza řeči. Převod textu na řeč spočívá v tom, že počítač přečte slovo nahlas. Je to proto, aby stroje mluvily jednoduše a zněly jako lidé různého věku a pohlaví. S rozvojem digitálních služeb a rozpoznávání hlasu jsou stále populárnější technologie převodu textu na řeč.

Co je syntéza řeči?

Syntéza řeči, známá také jako systém převodu textu na řeč (TTS), je počítačem vytvořená simulace lidského hlasu. Syntezátory řeči převádějí psaná slova do mluvené řeči.

Během běžného dne se pravděpodobně setkáte s různými typy syntetické řeči. Technologie syntézy řeči, která je podporována aplikacemi, chytrými reproduktory a bezdrátovými sluchátky, usnadňuje život tím, že zlepšuje:

Přístupnost: Pokud jste zrakově postižení nebo zdravotně postižení, můžete pro čtení textového obsahu použít systém převodu textu na řeč nebo čtečku obrazovky, která slova vyslovuje nahlas. Například syntetizátor převodu textu na řeč na TikToku je oblíbenou funkcí pro přístupnost, která umožňuje komukoli konzumovat vizuální obsah sociálních médií.
Navigace: Úvodní stránka Během jízdy se nemůžete dívat na mapu, ale můžete poslouchat pokyny. Většina aplikací GPS vám během cesty poskytne užitečná hlasová upozornění, některá z nich i ve více jazycích.
K dispozici je hlasová asistence. Inteligentní zvukoví asistenti, jako je Siri (iPhone) a Alexa (Android), jsou díky své srozumitelnosti vynikající pro multitasking, protože umožňují objednat pizzu nebo poslouchat předpověď počasí a zároveň vykonávat jiné fyzické úkoly (např. mytí nádobí). Přestože tito asistenti občas dělají chyby a často jsou navrženi jako podřízené ženské postavy, působí docela realisticky.

Jaká je historie syntézy řeči?

Vynálezce Wolfgang von Kempelen to málem dokázal už v 18. století pomocí měchů a trubek.
V roce 1928 vytvořil Homer W. Dudley, americký vědec v Bellových laboratořích, vokodér, elektronický analyzátor řeči. Dudley vyvíjí Vocoder do podoby Voderu, elektronického syntetizátoru řeči ovládaného pomocí klávesnice.
Homer Dudley z Bellových laboratoří předvedl na Světové výstavě v New Yorku v roce 1939 první funkční hlasový syntezátor Voder. K ovládání kláves a nožního pedálu masivního přístroje podobného varhanám byla zapotřebí lidská obsluha.
V následujících desetiletích výzkumníci na Voderovi stavěli. První systémy počítačové syntézy řeči byly vyvinuty koncem 50. let a Bellovy laboratoře se do historie zapsaly znovu v roce 1961, kdy fyzik John Larry Kelly Jr. přednesl přednášku na počítači IBM 704.
Integrované obvody umožnily v 70. a 80. letech 20. století komerční produkty pro syntézu řeči v telekomunikacích a videohrách. Čip Vortex, používaný v arkádových hrách, byl jedním z prvních integrovaných obvodů pro syntézu řeči.
Společnost Texas Instruments se proslavila v roce 1980 syntezátorem Speak N Spell, který se používal jako elektronická pomůcka pro čtení dětí.
Od počátku 90. let 20. století jsou součástí standardních počítačových operačních systémů syntetizátory řeči, které slouží především k diktování a přepisu. Kromě toho se dnes TTS používá k různým účelům a syntetické hlasy jsou s rozvojem umělé inteligence a strojového učení pozoruhodně přesné.

Jak funguje syntéza řeči?

Syntéza řeči probíhá ve třech fázích: text na slova, slova na fonémy a fonémy na zvuk.

1. Převod textu na slova

Syntéza řeči začíná předzpracováním neboli normalizací, která snižuje nejednoznačnost tím, že vybere nejlepší způsob čtení úryvku. Předzpracování zahrnuje čtení a čištění textu, aby jej počítač přečetl přesněji. Čísla, data, časy, zkratky, akronymy a speciální znaky je třeba překládat. K určení nejpravděpodobnější výslovnosti používají statistickou pravděpodobnost nebo neuronové sítě.

Homografy – slova, která mají podobnou výslovnost, ale odlišný význam, vyžadují zpracování před zpracováním. Syntetizátor řeči také nerozumí slovu „prodám auto“, protože slovo „prodat“ lze vyslovit jako „mobil“. Na základě rozpoznání pravopisu („Mám mobilní telefon“) lze odhadnout, že správně je „Prodám auto“. Řešení pro rozpoznávání řeči, které převádí lidský hlas na text i se složitou slovní zásobou.

2. Převod slov na fonémy

Po určení slov syntetizátor řeči vytváří zvuky obsahující tato slova. Každý počítač vyžaduje rozsáhlý abecední seznam slov a informace o tom, jak se jednotlivá slova vyslovují. Potřebovali by seznam fonémů, které tvoří zvuk každého slova. Fonémy mají zásadní význam, protože anglická abeceda obsahuje pouze 26 písmen, ale více než 40 fonémů.

Pokud má počítač k dispozici slovník slov a fonémů, stačí mu teoreticky přečíst slovo, vyhledat ho ve slovníku a poté přečíst odpovídající fonémy. V praxi je to však mnohem složitější, než se zdá.

Alternativní metoda spočívá v rozkladu psaných slov na grafémy a generování fonémů, které jim odpovídají, pomocí jednoduchých pravidel.

3. Fonémy na zvuk

Počítač nyní převedl text na seznam hlásek. Jak ale zjistit základní hlásky, které počítač přečte nahlas, když převádí text na řeč v různých jazycích? Existují tři přístupy.

Pro začátek budou použity nahrávky lidí vyslovujících dané hlásky.
Druhý přístup spočívá v tom, že počítač generuje fonémy pomocí základních zvukových frekvencí.
Posledním přístupem je napodobení techniky lidského hlasu v reálném čase přirozeným zvukem pomocí vysoce kvalitních algoritmů.

Konkatenativní syntéza

Syntezátory řeči, které používají nahrané lidské hlasy, musí být předem vybaveny malým množstvím lidského zvuku, se kterým lze manipulovat. Je také založen na lidské řeči, která byla zaznamenána.

Co je formantová syntéza?

Formanty jsou 3-5 klíčových (rezonančních) frekvencí zvuku, které vytváří a kombinuje lidská hlasivka, aby vznikl zvuk řeči nebo zpěvu. Formantové syntetizátory řeči mohou říkat cokoli, včetně neexistujících a cizích slov, o kterých nikdy neslyšeli. Pro generování syntetizovaného řečového výstupu se používá aditivní syntéza a syntéza fyzikálním modelováním.

Co je artikulační syntéza?

Artikulační syntéza umožňuje počítačům mluvit tak, že simulují složitý lidský hlasový trakt a artikulují procesy, které v něm probíhají. Vzhledem ke své složitosti je to metoda, kterou dosud nejméně badatelů studovalo.

Stručně řečeno, software pro hlasovou syntézu / syntézu textu na řeč umožňuje uživatelům vidět psaný text, slyšet ho a číst ho nahlas ve stejnou dobu. Různý software využívá jak počítačem generované, tak lidmi nahrané hlasy. Syntéza řeči se stává stále populárnější s rostoucí poptávkou po zapojení zákazníků a zefektivnění organizačních procesů. Usnadňuje dlouhodobou ziskovost.