Runas sintezatori maina darba kultūru. Tekstu nolasa runas sintēze. Teksta pārveidošana uz runu ir tad, kad dators skaļi nolasa vārdu. Tas nozīmē, ka mašīnas runā vienkārši un izklausās kā dažāda vecuma un dzimuma cilvēki. Teksta pārveidošanas uz runu dzinēji kļūst arvien populārāki, jo pieaug digitālo pakalpojumu un balss atpazīšanas iespējas.

Kas ir runas sintēze?

Runas sintēze, kas pazīstama arī kā teksta pārveidošanas sistēma (TTS), ir datorizēta cilvēka balss simulācija. Runas sintezatori pārvērš rakstītus vārdus sarunvalodā.

Parastas dienas laikā jūs, visticamāk, sastapsieties ar dažādiem sintētiskās runas veidiem. Runas sintēzes tehnoloģija, ko palīdz lietotnes, viedie skaļruņi un bezvadu austiņas, atvieglo dzīvi, uzlabojot:

Kāda ir runas sintēzes vēsture?

Kā darbojas runas sintēze?

Runas sintēze notiek trīs posmos: no teksta uz vārdiem, no vārdiem uz fonēmām un no fonēmām uz skaņu.

1. Teksta pārvēršana vārdos

Runas sintēze sākas ar pirmapstrādi jeb normalizāciju, kas samazina neskaidrības, izvēloties labāko veidu, kā nolasīt fragmentu. Iepriekšējā apstrāde ietver teksta nolasīšanu un attīrīšanu, lai dators to nolasītu precīzāk. Ir jātulko skaitļi, datumi, laiki, saīsinājumi, akronīmi un īpašas rakstzīmes. Lai noteiktu visticamāko izrunu, viņi izmanto statistisko varbūtību vai neironu tīklus.

Homogrāfi – vārdi, kuriem ir līdzīga izruna, bet atšķirīga nozīme, ir jāapstrādā, izmantojot pirmapstrādi. Arī runas sintezators nesaprot frāzi “Es pārdodu mašīnu”, jo vārdu “pārdot” var izrunāt kā “šūnu”. Atpazīstot rakstību (“Man ir mobilais tālrunis”), var nojaust, ka “Es pārdodu automašīnu” ir pareizi. Runas atpazīšanas risinājums, lai pārveidotu cilvēka balsi tekstā pat ar sarežģītu vārdu krājumu.

2. Vārdi uz fonēmas

Pēc vārdu noteikšanas runas sintezators rada skaņas, kas satur šos vārdus. Katram datoram ir nepieciešams apjomīgs alfabētisks vārdu saraksts un informācija par to, kā katru vārdu izrunāt. Viņiem būtu nepieciešams saraksts ar fonēmām, kas veido katra vārda skaņu. Fonēmas ir ļoti svarīgas, jo angļu valodas alfabētā ir tikai 26 burti, bet ir vairāk nekā 40 fonēmu.

Teorētiski, ja datoram ir vārdu un fonēmu vārdnīca, datoram atliek tikai izlasīt vārdu, meklēt to vārdnīcā un pēc tam nolasīt atbilstošās fonēmas. Tomēr praksē tas ir daudz sarežģītāk, nekā šķiet.

Alternatīvā metode ietver rakstītu vārdu sadalīšanu grafēmās un tām atbilstošu fonēmu ģenerēšanu, izmantojot vienkāršus noteikumus.

3. Fonēmas uz skaņu

Tagad dators ir pārvērtis tekstu fonēmu sarakstā. Bet kā atrast pamata fonēmas, kuras dators nolasa skaļi, pārveidojot tekstu uz runu dažādās valodās? Šim nolūkam ir trīs pieejas.

Konkatenatīvā sintēze

Runas sintezatoriem, kas izmanto ierakstītas cilvēka balsis, ir jābūt iepriekš ielādētiem ar nelielu daudzumu cilvēka skaņas, ar kuru var manipulēt. Tā pamatā ir arī ierakstīta cilvēka runa.

Kas ir formantu sintēze?

Formantas ir 3-5 galvenās (rezonanses) skaņas frekvences, ko rada un apvieno cilvēka balss stīgas, lai radītu runas vai dziedāšanas skaņu. Formantu runas sintezatori var pateikt jebko, arī neeksistējošus un svešvārdus, par kuriem viņi nekad nav dzirdējuši. Sintezētās runas ģenerēšanai tiek izmantota aditīvā sintēze un fizikālā modelēšanas sintēze.

Kas ir artikulācijas sintēze?

Artikulācijas sintēze ir datoru radīšana runāt, simulējot sarežģīto cilvēka balss ceļu un artikulējot tajā notiekošo procesu. Sarežģītības dēļ tā ir metode, kuru līdz šim pētnieki ir pētījuši vismazāk.

Īsāk sakot, balss sintēzes programmatūra/ teksta pārveidošana uz runu ļauj lietotājiem vienlaicīgi redzēt rakstītu tekstu, dzirdēt to un lasīt to skaļi. Dažādās programmatūrās tiek izmantotas gan datorizētas, gan cilvēka ierakstītas balsis. Runas sintēze kļūst arvien populārāka, jo pieaug pieprasījums pēc klientu iesaistīšanas un organizācijas procesu racionalizācijas. Tas veicina ilgtermiņa rentabilitāti.