Kuidas toimib kõnesüntees?

Tekstianalüüs ja keeleline töötlemine
Tekstianalüüs ja keeleline töötlemine

Speaktor 2023-07-13

Kõnesüntesaatorid muudavad töökultuuri. Teksti loeb ette kõnesüntesaator. Tekstist kõneks on see, kui arvuti loeb sõna ette. See tähendab, et masinad räägivad lihtsalt ja kõlavad nagu eri vanuses ja eri soost inimesed. Tekstist kõneviisor muutub üha populaarsemaks, kuna digitaalsed teenused ja häältuvastus kasvavad.

Mis on kõnesüntees?

Kõnesüntees, mida tuntakse ka kui tekstist kõneks (TTS-süsteem), on arvutiga loodud inimhääle simulatsioon. Kõnesüntesaatorid muudavad kirjutatud sõnad kõnekeeleks.

Ühe tavalise päeva jooksul puutute tõenäoliselt kokku eri tüüpi sünteetilise kõnega. Kõnesünteesi tehnoloogia, mida toetavad rakendused, nutikad kõlarid ja juhtmevabad kõrvaklapid, muudab elu lihtsamaks, parandades:

  • Ligipääsetavus: Kui teil on nägemispuude või puue, võite kasutada teksti kõnesüsteemi teksti sisu lugemiseks või ekraanilugejat sõnade valjusti kõnelemiseks. Näiteks TikToki tekstist kõnesüntesaator on populaarne ligipääsetavuse funktsioon, mis võimaldab igaühel tarbida visuaalset sotsiaalmeedia sisu.
  • Navigatsioon: Sõidu ajal ei saa te kaarti vaadata, kuid saate kuulata juhiseid. Sõltumata sihtkohast, saab enamik GPS-rakendusi anda reisi ajal kasulikke häälhoiatusi, mõned neist ka mitmes keeles.
  • Häälteenindus on saadaval. Intelligentsed audioassistendid, nagu Siri (iPhone) ja Alexa (Android), on suurepärased multitaskinguks, võimaldades tänu oma arusaadavusele tellida pitsat või kuulata ilmateadet, samal ajal kui täidate muid füüsilisi ülesandeid (nt nõudepesu). Kuigi need assistendid teevad aeg-ajalt vigu ja on sageli kujundatud alluvateks naistegelasteks, kõlavad nad üsna elutruult.

Milline on kõnesünteesi ajalugu?

  • Leiutaja Wolfgang von Kempelen oleks 18. sajandil peaaegu jõudnud selleni, kasutades puhurit ja torusid.
  • 1928. aastal lõi Homer W. Dudley, Ameerika teadlane Bell Laboratories/Bell Labs, elektroonilise kõneanalüsaatori Vocoder. Dudley arendab Vocoder’i edasi Voder’iks, elektrooniliseks kõnesüntesaatoriks, mida juhitakse klaviatuuri abil.
  • Homer Dudley Bell Laboratories’ist demonstreeris 1939. aasta maailmanäitusel New Yorgis maailma esimest funktsionaalset häälsüntesaatorit, Voderit. Massiivse orelilaadse seadme klahvide ja jalgpedaali käsitsemiseks oli vaja inimoperaatorit.
  • Teadlased arendasid Voderit järgmiste aastakümnete jooksul edasi. Esimesed arvutipõhised kõnesünteesisüsteemid töötati välja 1950. aastate lõpus ja Bell Laboratories tegi 1961. aastal taas ajalugu, kui füüsik John Larry Kelly Jr. pidas IBM 704 kõnet.
  • Integreeritud vooluahelad tegid 1970ndatel ja 1980ndatel aastatel võimalikuks kommertsliku kõnesünteesi tooted telekommunikatsioonis ja videomängudes. Vortexi kiip, mida kasutati arcade-mängudes, oli üks esimesi kõnesünteesi integraallülitusi.
  • Texas Instruments sai 1980. aastal tuntuks süntesaatoriga Speak N Spell, mida kasutati elektroonilise lugemisvahendina lastele.
  • Alates 1990. aastate algusest on standardsed arvutite operatsioonisüsteemid sisaldanud kõnesüntesaatoreid, peamiselt dikteerimiseks ja transkriptsiooniks. Lisaks sellele kasutatakse TTS-i nüüdseks erinevatel eesmärkidel ning sünteetilised hääled on muutunud märkimisväärselt täpseks, kuna tehisintellekt ja masinõpe on arenenud.

Kuidas toimib kõnesüntees?

Kõnesüntees toimib kolmes etapis: tekstist sõnadeks, sõnadest foneemideks ja foneemidest helideks.

1. Tekstist sõnadesse

Kõnesüntees algab eeltöötlusega ehk normaliseerimisega, mis vähendab mitmetähenduslikkust, valides parima viisi lõigu lugemiseks. Eeltöötlus hõlmab teksti lugemist ja puhastamist, nii et arvuti loeb seda täpsemalt. Tõlkimist vajavad numbrid, kuupäevad, ajad, lühendid, akronüümid ja erimärgid. Kõige tõenäolisema häälduse määramiseks kasutavad nad statistilist tõenäosust või neuronivõrke.

Homograafid – sõnad, millel on sarnane hääldus, kuid erinev tähendus, vajavad eeltöötlust. Samuti ei saa kõnesüntesaator aru “ma müün auto”, sest “müüa” võib hääldada “cell”. Õigekirja äratundmise järgi (“mul on mobiiltelefon”) võib arvata, et “ma müün autot” on õige. Kõnetuvastuse lahendus, mis muudab inimese hääle tekstiks ka keerulise sõnavara puhul.

2. Sõnade muutmine foneemideks

Pärast sõnade kindlaksmääramist toodab kõnesüntesaator neid sõnu sisaldavaid helisid. Iga arvuti vajab mahukat sõnade tähestikulist nimekirja ja teavet selle kohta, kuidas iga sõna hääldada. Nad vajaksid nimekirja foneemidest, mis moodustavad iga sõna kõla. Foneemid on väga olulised, sest inglise tähestikus on ainult 26 tähte, kuid üle 40 foneemi.

Kui arvutil on olemas sõnade ja foneemide sõnastik, siis teoreetiliselt piisab sellest, kui ta loeb sõna, otsib seda sõnaraamatust ja loeb seejärel vastavad foneemid välja. Praktikas on see aga palju keerulisem, kui tundub.

Alternatiivse meetodi puhul jaotatakse kirjutatud sõnad grafeemideks ja genereeritakse neile vastavad foneemid lihtsate reeglite abil.

3. Foneemid helile

Arvuti on nüüd muutnud teksti foneemide loeteluks. Kuidas aga leida põhifoneemid, mida arvuti loeb ette, kui ta eri keeltes teksti kõnekeeleks muundab? Selleks on kolm lähenemisviisi.

  • Alustuseks kasutatakse foneeme ütlevaid inimsõnu.
  • Teine lähenemisviis on see, et arvuti genereerib foneeme, kasutades põhihelisagedusi.
  • Viimane lähenemisviis on matkida inimhääle tehnikat reaalajas, kasutades kvaliteetseid algoritme, mis kõlavad loomulikul viisil.

Konkateeriv süntees

Kõnesüntesaatorid, mis kasutavad salvestatud inimhääli, peavad olema eellaaditud väikese hulga inimhäälega, millega saab manipuleerida. Samuti põhineb see inimkõne, mis on salvestatud.

Mis on formantide süntees?

Formaanid on 3-5 põhilist (resoneerivat) helisagedust, mida inimese häälepaelad tekitavad ja kombineerivad, et tekitada kõne- või lauluheli. Formantide kõnesüntesaatorid suudavad öelda kõike, sealhulgas olematuid ja võõrsõnu, millest nad pole kunagi kuulnudki. Sünteesitud kõne väljundite genereerimiseks kasutatakse additiivset sünteesi ja füüsilist modelleerimist.

Mis on artikulatsiooniline süntees?

Artikulatsiooniline süntees on arvutite kõnetamine inimese keerulise hääleaparaadi simuleerimise ja seal toimuva protsessi artikuleerimise abil. Selle keerukuse tõttu on see meetod seni kõige vähem uuritud.

Lühidalt öeldes võimaldab kõnesünteesi tarkvara / tekstist kõnesünteesi abil kasutajatel näha kirjutatud teksti, kuulda seda ja lugeda seda valjusti, ja seda kõike korraga. Erinevad tarkvarad kasutavad nii arvutiga genereeritud kui ka inimese poolt salvestatud hääli. Kõnesüntees muutub üha populaarsemaks, kuna nõudlus klientide kaasamise ja organisatsiooniliste protsesside ühtlustamise järele kasvab. See hõlbustab pikaajalist kasumlikkust.

Jaga postitust

Tekst kõneks

img

Speaktor

Teksti teisendamine hääleks ja ettelugemine