Kā darbojas runas sintēze?

Teksta analīze un lingvistiskā apstrāde
Teksta analīze un lingvistiskā apstrāde

Speaktor 2023-07-13

Runas sintezatori maina darba kultūru. Tekstu nolasa runas sintēze. Teksta pārveidošana uz runu ir tad, kad dators skaļi nolasa vārdu. Tas nozīmē, ka mašīnas runā vienkārši un izklausās kā dažāda vecuma un dzimuma cilvēki. Teksta pārveidošanas uz runu dzinēji kļūst arvien populārāki, jo pieaug digitālo pakalpojumu un balss atpazīšanas iespējas.

Kas ir runas sintēze?

Runas sintēze, kas pazīstama arī kā teksta pārveidošanas sistēma (TTS), ir datorizēta cilvēka balss simulācija. Runas sintezatori pārvērš rakstītus vārdus sarunvalodā.

Parastas dienas laikā jūs, visticamāk, sastapsieties ar dažādiem sintētiskās runas veidiem. Runas sintēzes tehnoloģija, ko palīdz lietotnes, viedie skaļruņi un bezvadu austiņas, atvieglo dzīvi, uzlabojot:

  • Pieejamība: Ja jums ir redzes traucējumi vai invaliditāte, varat izmantot teksta pārveidošanas sistēmu, lai nolasītu teksta saturu, vai ekrāna lasītāju, lai izrunātu vārdus skaļi. Piemēram, Teksta-uz-runas sintezators vietnē TikTok ir populāra pieejamības funkcija, kas ļauj ikvienam lietot vizuālo sociālo mediju saturu.
  • Navigācija: Braukšanas laikā nevar skatīties kartē, bet var klausīties norādījumus. Neatkarīgi no galamērķa vairums GPS lietotņu var sniegt noderīgus balss brīdinājumus ceļojuma laikā, turklāt dažas no tām ir vairākās valodās.
  • Ir pieejama balss palīdzība. Inteliģentie audio asistenti, piemēram, Siri (iPhone) un Alexa (Android), ir lieliski piemēroti daudzuzdevumu veikšanai, jo, pateicoties to saprotamībai, varat pasūtīt picu vai klausīties laika ziņas, vienlaikus veicot citus fiziskus uzdevumus (piemēram, mazgājot traukus). Lai gan šie asistenti reizēm kļūdās un bieži vien ir veidoti kā pakļāvīgi sieviešu tēli, viņi izklausās diezgan reāli.

Kāda ir runas sintēzes vēsture?

  • Izgudrotājs Volfgangs fon Kempelens 18. gadsimtā gandrīz panāca šo mērķi ar silfoniem un caurulēm.
  • 1928. gadā amerikāņu zinātnieks Homērs V. Dūdlijs (Homer W. Dudley) no Bell Laboratories/ Bell Labs radīja elektronisko runas analizatoru Vocoder. Dūdlijs izstrādā Vocoder, pārveidojot to par Voder – elektronisku runas sintezatoru, ko darbina, izmantojot tastatūru.
  • 1939. gada Pasaules izstādē Ņujorkā Homeris Dūdlijs no Bell Laboratories demonstrēja pasaulē pirmo funkcionālo balss sintezatoru Voder. Lai darbinātu masīvā ērģelēm līdzīgā aparāta taustiņus un pedāli, bija vajadzīgs operators – cilvēks.
  • Turpmākajos gadu desmitos pētnieki izmantoja Voder. Pirmās datorizētās runas sintēzes sistēmas tika izstrādātas 50. gadu beigās, un Bell Laboratories atkal iegāja vēsturē 1961. gadā, kad fiziķis Džons Lerijs Kellijs juniors (John Larry Kelly Jr.) uzstājās ar IBM 704.
  • Integrālās shēmas 20. gadsimta 70. un 80. gados telekomunikācijās un videospēlēs ļāva izmantot komerciālus runas sintēzes produktus. Vortex mikroshēma, ko izmantoja arkādes spēlēs, bija viena no pirmajām runas sintēzes integrālajām shēmām.
  • Texas Instruments ieguva atpazīstamību 1980. gadā ar sintezatoru Speak N Spell, ko izmantoja kā elektronisku lasīšanas palīglīdzekli bērniem.
  • Kopš 90. gadu sākuma standarta datoru operētājsistēmās ir iekļauti runas sintezatori, galvenokārt diktēšanai un transkripcijai. Turklāt TTS tagad tiek izmantota dažādiem mērķiem, un, attīstoties mākslīgajam intelektam un mašīnmācībai, sintētiskās balsis ir kļuvušas ļoti precīzas.

Kā darbojas runas sintēze?

Runas sintēze notiek trīs posmos: no teksta uz vārdiem, no vārdiem uz fonēmām un no fonēmām uz skaņu.

1. Teksta pārvēršana vārdos

Runas sintēze sākas ar pirmapstrādi jeb normalizāciju, kas samazina neskaidrības, izvēloties labāko veidu, kā nolasīt fragmentu. Iepriekšējā apstrāde ietver teksta nolasīšanu un attīrīšanu, lai dators to nolasītu precīzāk. Ir jātulko skaitļi, datumi, laiki, saīsinājumi, akronīmi un īpašas rakstzīmes. Lai noteiktu visticamāko izrunu, viņi izmanto statistisko varbūtību vai neironu tīklus.

Homogrāfi – vārdi, kuriem ir līdzīga izruna, bet atšķirīga nozīme, ir jāapstrādā, izmantojot pirmapstrādi. Arī runas sintezators nesaprot frāzi “Es pārdodu mašīnu”, jo vārdu “pārdot” var izrunāt kā “šūnu”. Atpazīstot rakstību (“Man ir mobilais tālrunis”), var nojaust, ka “Es pārdodu automašīnu” ir pareizi. Runas atpazīšanas risinājums, lai pārveidotu cilvēka balsi tekstā pat ar sarežģītu vārdu krājumu.

2. Vārdi uz fonēmas

Pēc vārdu noteikšanas runas sintezators rada skaņas, kas satur šos vārdus. Katram datoram ir nepieciešams apjomīgs alfabētisks vārdu saraksts un informācija par to, kā katru vārdu izrunāt. Viņiem būtu nepieciešams saraksts ar fonēmām, kas veido katra vārda skaņu. Fonēmas ir ļoti svarīgas, jo angļu valodas alfabētā ir tikai 26 burti, bet ir vairāk nekā 40 fonēmu.

Teorētiski, ja datoram ir vārdu un fonēmu vārdnīca, datoram atliek tikai izlasīt vārdu, meklēt to vārdnīcā un pēc tam nolasīt atbilstošās fonēmas. Tomēr praksē tas ir daudz sarežģītāk, nekā šķiet.

Alternatīvā metode ietver rakstītu vārdu sadalīšanu grafēmās un tām atbilstošu fonēmu ģenerēšanu, izmantojot vienkāršus noteikumus.

3. Fonēmas uz skaņu

Tagad dators ir pārvērtis tekstu fonēmu sarakstā. Bet kā atrast pamata fonēmas, kuras dators nolasa skaļi, pārveidojot tekstu uz runu dažādās valodās? Šim nolūkam ir trīs pieejas.

  • Lai sāktu, tiks izmantoti ieraksti, kuros cilvēki izrunā fonēmas.
  • Otra pieeja ir dators, kas ģenerē fonēmas, izmantojot pamatskaņu frekvences.
  • Pēdējā pieeja ir imitēt cilvēka balss tehniku reālajā laikā, izmantojot dabiskas skaņas un augstas kvalitātes algoritmus.

Konkatenatīvā sintēze

Runas sintezatoriem, kas izmanto ierakstītas cilvēka balsis, ir jābūt iepriekš ielādētiem ar nelielu daudzumu cilvēka skaņas, ar kuru var manipulēt. Tā pamatā ir arī ierakstīta cilvēka runa.

Kas ir formantu sintēze?

Formantas ir 3-5 galvenās (rezonanses) skaņas frekvences, ko rada un apvieno cilvēka balss stīgas, lai radītu runas vai dziedāšanas skaņu. Formantu runas sintezatori var pateikt jebko, arī neeksistējošus un svešvārdus, par kuriem viņi nekad nav dzirdējuši. Sintezētās runas ģenerēšanai tiek izmantota aditīvā sintēze un fizikālā modelēšanas sintēze.

Kas ir artikulācijas sintēze?

Artikulācijas sintēze ir datoru radīšana runāt, simulējot sarežģīto cilvēka balss ceļu un artikulējot tajā notiekošo procesu. Sarežģītības dēļ tā ir metode, kuru līdz šim pētnieki ir pētījuši vismazāk.

Īsāk sakot, balss sintēzes programmatūra/ teksta pārveidošana uz runu ļauj lietotājiem vienlaicīgi redzēt rakstītu tekstu, dzirdēt to un lasīt to skaļi. Dažādās programmatūrās tiek izmantotas gan datorizētas, gan cilvēka ierakstītas balsis. Runas sintēze kļūst arvien populārāka, jo pieaug pieprasījums pēc klientu iesaistīšanas un organizācijas procesu racionalizācijas. Tas veicina ilgtermiņa rentabilitāti.

Kopīgot ziņu

Teksta pārveidotājs skaņā (TPS)

img

Speaktor

Teksta pārvēršana balsī un skaļa lasīšana