Kalbos sintezatoriai keičia darbo vietos kultūrą. Tekstą skaito kalbos sintezatorius. Tekstas į kalbą – tai kai kompiuteris garsiai perskaito žodį. Mašinos turi kalbėti paprastai ir skambėti kaip skirtingo amžiaus ir lyties žmonės. Skaitmeninėms paslaugoms ir balso atpažinimo galimybėms plečiantis, populiarėja teksto keitimo į kalbą varikliai.
Kas yra kalbos sintezė?
Kalbos sintezė, dar vadinama teksto keitimo į kalbą sistema (TTS), yra kompiuteriu sukurta žmogaus balso imitacija. Kalbos sintezatoriai rašytinius žodžius paverčia šnekamąja kalba.
Per įprastą dieną galite susidurti su įvairių tipų sintetine kalba. Kalbos sintezės technologija, kuriai padeda programėlės, išmanieji garsiakalbiai ir belaidės ausinės, palengvina gyvenimą:
- Prieinamumas: Jei turite regos sutrikimų arba esate neįgalus, galite naudotis teksto keitimo į kalbą sistema, kad perskaitytumėte teksto turinį, arba ekrano skaitytuvu, kad garsiai ištartumėte žodžius. Pavyzdžiui, „TikTok” teksto į kalbą sintezatorius yra populiari prieinamumo funkcija, leidžianti bet kam naudotis vaizdiniu socialinės žiniasklaidos turiniu.
- Navigacija: Vairuodami negalite žiūrėti į žemėlapį, bet galite klausytis nurodymų. Nepriklausomai nuo kelionės tikslo, dauguma GPS programėlių gali pateikti naudingus balso įspėjimus kelionės metu, o kai kurios iš jų – keliomis kalbomis.
- Galima naudotis pagalba balsu. Išmanieji garso asistentai, tokie kaip „Siri” („iPhone”) ir „Alexa” („Android”), puikiai tinka daugeliui užduočių atlikti, nes dėl jų suprantamumo galite užsisakyti picą arba klausytis orų prognozių atlikdami kitas fizines užduotis (pvz., plaudami indus). Nors šie asistentai kartais daro klaidų ir dažnai yra pavaldūs moteriškiems personažams, jie skamba gana tikroviškai.
Kokia yra kalbos sintezės istorija?
- XVIII a. išradėjas Volfgangas fon Kempelenas beveik pasiekė šį tikslą, naudodamas varpas ir vamzdžius.
- 1928 m. amerikiečių mokslininkas Homeras W. Dudley iš „Bell Laboratories” (Bell Labs) sukūrė vokoderį – elektroninį kalbos analizatorių. Dudlis iš „Vocoder” sukuria „Voder” – elektroninį kalbos sintezatorių, valdomą klaviatūra.
- 1939 m. pasaulinėje parodoje Niujorke Homeris Dudlis iš „Bell Laboratories” pademonstravo pirmąjį pasaulyje veikiantį balso sintezatorių „Voder”. Masyvaus į vargonus panašaus aparato klavišams ir kojiniam pedalui valdyti reikėjo žmogaus operatoriaus.
- Per kelis ateinančius dešimtmečius mokslininkai patobulino „Voder”. Pirmosios kompiuterinės kalbos sintezės sistemos buvo sukurtos XX a. šeštojo dešimtmečio pabaigoje, o 1961 m. „Bell Laboratories” vėl įėjo į istoriją, kai fizikas Johnas Larry Kelly jaunesnysis kalbėjo IBM 704.
- Integriniai grandynai suteikė galimybę naudoti komercinius kalbos sintezės produktus telekomunikacijose ir vaizdo žaidimuose septintajame ir aštuntajame dešimtmetyje. „Vortex” lustas, naudotas arkadiniuose žaidimuose, buvo vienas pirmųjų kalbos sintezės integrinių grandynų.
- „Texas Instruments” išgarsėjo 1980 m. su sintezatoriumi „Speak N Spell”, kuris buvo naudojamas kaip elektroninė skaitymo priemonė vaikams.
- Nuo XX a. dešimtojo dešimtmečio pradžios standartinėse kompiuterių operacinėse sistemose naudojami kalbos sintezatoriai, visų pirma skirti diktavimui ir transkripcijai. Be to, TTS dabar naudojama įvairiems tikslams, o dirbtinis intelektas ir mašininis mokymasis tapo itin tikslūs.
Kaip veikia kalbos sintezė?
Kalbos sintezė vyksta trimis etapais: tekstas – žodžiai, žodžiai – fonemos ir fonemos – garsas.
1. Tekstas į žodžius
Kalbos sintezė pradedama nuo išankstinio apdorojimo arba normalizavimo, kurio metu sumažinamas dviprasmiškumas pasirenkant geriausią ištraukos skaitymo būdą. Išankstinis apdorojimas apima teksto skaitymą ir valymą, kad kompiuteris jį perskaitytų tiksliau. Reikia versti skaičius, datas, laikus, santrumpas, akronimus ir specialius simbolius. Norėdami nustatyti labiausiai tikėtiną tarimą, jie naudoja statistinę tikimybę arba neuroninius tinklus.
Homografus – žodžius, kurių tarimas panašus, bet reikšmės skirtingos, reikia apdoroti iš anksto. Be to, kalbos sintezatorius negali suprasti „parduodu automobilį”, nes žodį „parduoti” galima tarti kaip „celė”. Atpažindami rašybą („Turiu mobilųjį telefoną”), galime spėti, kad „Parduodu automobilį” yra taisyklinga. Kalbos atpažinimo sprendimas, leidžiantis žmogaus balsą paversti tekstu net ir su sudėtingu žodynu.
2. Žodžiai į fonemas
Nustatęs žodžius, kalbos sintezatorius sukuria garsus, kuriuose yra tie žodžiai. Kiekviename kompiuteryje reikia nemažo abėcėlinio žodžių sąrašo ir informacijos, kaip kiekvieną žodį ištarti. Jiems reikėtų sudaryti fonemų, kurios sudaro kiekvieno žodžio garsą, sąrašą. Fonemos yra labai svarbios, nes anglų kalbos abėcėlėje yra tik 26 raidės, bet daugiau nei 40 fonemų.
Teoriškai, jei kompiuteris turi žodžių ir fonemų žodyną, jam tereikia perskaityti žodį, surasti jį žodyne ir perskaityti atitinkamas fonemas. Tačiau praktiškai tai yra daug sudėtingiau, nei atrodo.
Alternatyvusis metodas apima rašytinių žodžių skaidymą į grafemas ir jas atitinkančių fonemų generavimą pagal paprastas taisykles.
3. Fonemos – garsas
Dabar kompiuteris tekstą pavertė fonemų sąrašu. Tačiau kaip rasti pagrindines fonemas, kurias kompiuteris skaito garsiai, kai konvertuoja tekstą į kalbą įvairiomis kalbomis? Yra trys požiūriai.
- Pirmiausia bus naudojami fonemas tariančių žmonių įrašai.
- Antrasis būdas – kompiuteris fonemas generuoja naudodamas pagrindinius garso dažnius.
- Galutinis metodas – imituoti žmogaus balso techniką realiuoju laiku natūraliai skambant aukštos kokybės algoritmais.
Konkatenatyvioji sintezė
Į kalbos sintezatorius, kuriuose naudojami įrašyti žmogaus balsai, turi būti iš anksto įkeltas nedidelis kiekis žmogaus garso, kuriuo galima manipuliuoti. Be to, ji pagrįsta įrašyta žmogaus kalba.
Kas yra formantų sintezė?
Formantės – tai 3-5 pagrindiniai (rezonansiniai) garso dažniai, kuriuos sukuria ir sujungia žmogaus balso stygos, išgaudamos kalbos ar dainavimo garsą. Formantiniai kalbos sintezatoriai gali pasakyti bet ką, įskaitant neegzistuojančius ir niekada negirdėtus svetimus žodžius. Sintezuotai kalbai generuoti naudojama adityvioji sintezė ir fizinio modeliavimo sintezė.
Kas yra artikuliacinė sintezė?
Artikuliacinė sintezė – tai kompiuterių kalbėjimas imituojant sudėtingą žmogaus balso traktą ir artikuliuojant jame vykstančius procesus. Dėl savo sudėtingumo šis metodas iki šiol mažiausiai tyrinėtas mokslininkų.
Trumpai tariant, balso sintezės programinė įranga ir (arba) teksto sintezė į kalbą leidžia naudotojams matyti rašytinį tekstą, girdėti jį ir skaityti garsiai tuo pačiu metu. Įvairioje programinėje įrangoje naudojami ir kompiuteriu sukurti, ir žmogaus įrašyti balsai. Kalbos sintezė tampa vis populiaresnė, nes didėja poreikis įtraukti klientus ir racionalizuoti organizacijos procesus. Tai palengvina ilgalaikį pelningumą.