Hogyan működik a beszédszintézis?

Szövegelemzés és nyelvi feldolgozás

Speaktor 2023-07-13

A beszédszintetizátorok átalakítják a munkahelyi kultúrát. Egy beszédszintetizátor olvassa fel a szöveget. A szövegről beszédre történő átvitel során a számítógép hangosan felolvas egy szót. Az, hogy a gépek egyszerűen beszéljenek, és úgy hangozzanak, mint a különböző korú és nemű emberek. A digitális szolgáltatások és a hangfelismerés növekedésével egyre népszerűbbek a szövegről beszédre váltó motorok.

Mi az a beszédszintézis?

A beszédszintézis, más néven text-to-speech (TTS-rendszer) az emberi hang számítógépes szimulációja. A beszédszintetizátorok az írott szavakat beszélt nyelvvé alakítják.

Egy átlagos nap folyamán valószínűleg többféle szintetikus beszéddel találkozik. A beszédszintetizáló technológia, amelyet alkalmazások, intelligens hangszórók és vezeték nélküli fejhallgatók segítenek, megkönnyíti az életet azáltal, hogy javítja:

Hozzáférhetőség: Ha Ön látássérült vagy fogyatékkal élő, akkor a szöveges tartalom felolvasásához használhat szövegértő rendszert, vagy képernyőolvasót a szavak hangos kimondásához. Például a TikTok szövegről beszédre szintetizálója egy népszerű hozzáférhetőségi funkció, amely lehetővé teszi, hogy bárki képes legyen vizuális közösségi médiatartalmakat fogyasztani.
Navigáció: Vezetés közben nem nézhet térképet, de hallgathatja az utasításokat. Bármi legyen is az úti célja, a legtöbb GPS-alkalmazás hasznos hangjelzéseket adhat utazás közben, némelyik több nyelven is.
Hangalapú segítség áll rendelkezésre. Az intelligens audioasszisztensek, mint a Siri (iPhone) és az Alexa (Android) kiválóan alkalmasak a multitaskingra, lehetővé téve, hogy pizzát rendeljen vagy időjárásjelentést hallgasson, miközben más fizikai feladatokat (pl. mosogatást) végez, köszönhetően az érthetőségüknek. Bár ezek az asszisztensek időnként hibáznak, és gyakran alárendelt női karakterekként vannak megtervezve, elég élethűen hangzanak.

Mi a beszédszintézis története?

Wolfgang von Kempelen feltaláló a 18. században majdnem elérte ezt a célt fújtatóval és csövekkel.
1928-ban Homer W. Dudley, a Bell Laboratories/Bell Labs amerikai tudósa megalkotta a Vocoder-t, egy elektronikus beszédelemzőt. Dudley a Vocodert továbbfejleszti a Voderré, egy billentyűzeten keresztül működtetett elektronikus beszédszintetizátorrá.
Homer Dudley, a Bell Laboratories munkatársa az 1939-es New York-i világkiállításon bemutatta a világ első működő hangszintetizátorát, a Vodert. A hatalmas orgonaszerű készülék billentyűinek és lábpedáljának működtetéséhez emberi kezelőre volt szükség.
A kutatók a következő évtizedekben a Voderre építettek. Az első számítógépes beszédszintetizáló rendszereket az 1950-es évek végén fejlesztették ki, és a Bell Laboratories 1961-ben ismét történelmet írt, amikor John Larry Kelly Jr. fizikus egy IBM 704-es gépen tartott előadást.
Az integrált áramkörök lehetővé tették a kereskedelmi forgalomban kapható beszédszintetizáló termékek alkalmazását a távközlésben és a videojátékokban az 1970-es és 1980-as években. Az arcade játékokban használt Vortex chip volt az egyik első beszédszintetizáló integrált áramkör.
A Texas Instruments 1980-ban a Speak N Spell szintetizátorral szerzett magának hírnevet, amelyet elektronikus olvasási segédeszközként használtak a gyermekek számára.
Az 1990-es évek eleje óta a szabványos számítógépes operációs rendszerek tartalmaznak beszédszintetizátorokat, elsősorban diktálásra és átírásra. Ezenkívül a TTS-t ma már számos célra használják, és a mesterséges intelligencia és a gépi tanulás fejlődésével a szintetikus hangok figyelemre méltóan pontosak lettek.

Hogyan működik a beszédszintézis?

A beszédszintézis három szakaszban működik: a szövegből szavakat, a szavakból fonémákat, a fonémákból pedig hangokat.

1. Szövegből szavakká

A beszédszintézis előfeldolgozással vagy normalizálással kezdődik, amely csökkenti a kétértelműséget azáltal, hogy kiválasztja a szöveg felolvasásának legjobb módját. Az előfeldolgozás magában foglalja a szöveg olvasását és tisztítását, hogy a számítógép pontosabban olvassa fel a szöveget. A számok, dátumok, időpontok, rövidítések, rövidítések és speciális karakterek fordítást igényelnek. A legvalószínűbb kiejtés meghatározásához statisztikai valószínűséget vagy neurális hálózatokat használnak.

A homográfok – a hasonló kiejtésű, de eltérő jelentésű szavak – előfeldolgozást igényelnek. A beszédszintetizátor nem érti meg azt sem, hogy „eladom az autót”, mert az „eladni” kiejthető „cellának” is. A helyesírás felismerésével („van egy mobiltelefonom”) kitalálhatjuk, hogy az „eladom az autót” helyes. Beszédfelismerő megoldás az emberi hang szöveggé alakítására, akár összetett szókincs esetén is.

2. Szavakból fonémák

A szavak meghatározása után a beszédszintetizátor az ezeket a szavakat tartalmazó hangokat állítja elő. Minden számítógépnek szüksége van egy jelentős ábécés szólistára és az egyes szavak kiejtésére vonatkozó információkra. Szükségük lenne egy listára az egyes szavak hangjait alkotó fonémákról. A fonémák kulcsfontosságúak, mivel az angol ábécében csak 26 betű van, de több mint 40 fonéma.

Elméletileg, ha a számítógépnek van egy szótára a szavakról és a fonémákról, akkor csak annyit kell tennie, hogy elolvas egy szót, megnézi a szótárban, majd felolvassa a megfelelő fonémákat. A gyakorlatban azonban ez sokkal összetettebb, mint amilyennek látszik.

Az alternatív módszer az írott szavak grafémekre bontását és az ezeknek megfelelő fonémák egyszerű szabályok segítségével történő generálását jelenti.

3. Fonémák a hanghoz

A számítógép most a szöveget fonémák listájává alakította át. De hogyan találja meg azokat az alapvető fonémákat, amelyeket a számítógép hangosan felolvas, amikor különböző nyelveken a szöveget beszéddé alakítja? Ehhez háromféle megközelítés létezik.

Kezdetben az emberek hangokat kimondó felvételeit fogják használni.
A második megközelítés szerint a számítógép az alaphangfrekvenciák felhasználásával generál fonémákat.
A végső megközelítés az emberi hang technikájának valós idejű, természetes hangzású, kiváló minőségű algoritmusokkal történő utánzása.

Konkatenatív szintézis

A rögzített emberi hangokat használó beszédszintetizátorokat elő kell tölteni egy kis mennyiségű emberi hanggal, amelyet manipulálni lehet. Emellett a hangfelvételen rögzített emberi beszédre épül.

Mi az a formánsszintézis?

A formánsok a hang 3-5 kulcsfrekvenciája, amelyeket az emberi hangszálak a beszéd vagy az éneklés hangjának előállítása érdekében generálnak és kombinálnak. A formáns beszédszintetizátorok bármit képesek kimondani, beleértve a nem létező és idegen szavakat is, amelyekről soha nem hallottak. A szintetizált beszédkimenet előállításához additív szintézist és fizikai modellező szintézist használnak.

Mi az artikulációs szintézis?

Az artikulációs szintézis az emberi hangszálak bonyolult szerkezetének szimulálásával és az ott lejátszódó folyamatok artikulálásával teszi a számítógépeket beszédképessé. Összetett volta miatt ez az a módszer, amelyet eddig a legkevesebb kutató tanulmányozott.

Röviden, a hangszintetizáló szoftver/szövegről beszédre szintézis lehetővé teszi a felhasználók számára, hogy egyszerre lássák az írott szöveget, hallják és hangosan felolvassák. A különböző szoftverek mind a számítógép által generált, mind az ember által felvett hangokat használják. A beszédszintézis egyre népszerűbbé válik, ahogy az ügyfelek bevonása és a szervezeti folyamatok racionalizálása iránti igény növekszik. Elősegíti a hosszú távú nyereségességet.