Cum funcționează sinteza vorbirii?

Analiza textului și prelucrarea lingvistică

Speaktor 2023-07-13

Sintetizatoarele de vorbire transformă cultura locului de muncă. O sinteză vocală citește textul. Text-to-speech este atunci când un computer citește un cuvânt cu voce tare. Este vorba de a face ca mașinile să vorbească simplu și să sune ca oameni de vârste și sexe diferite. Motoarele text-to-speech devin din ce în ce mai populare pe măsură ce serviciile digitale și recunoașterea vocală se dezvoltă.

Ce este sinteza vorbirii?

Sinteza vocală, cunoscută și sub numele de text-to-speech (sistem TTS), este o simulare a vocii umane generată de un computer. Sintetizatoarele de vorbire convertesc cuvintele scrise în limbaj vorbit.

Pe parcursul unei zile obișnuite, este posibil să întâlniți diverse tipuri de discurs sintetic. Tehnologia de sinteză vocală, cu ajutorul aplicațiilor, al difuzoarelor inteligente și al căștilor wireless, ușurează viața prin îmbunătățirea:

Accesibilitate: Dacă aveți deficiențe de vedere sau un handicap, puteți utiliza un sistem text to speech pentru a citi conținutul textului sau un cititor de ecran pentru a rosti cuvintele cu voce tare. De exemplu, sintetizatorul Text-to-Speech de pe TikTok este o caracteristică populară de accesibilitate care permite oricui să consume conținut vizual de social media.
Navigație: În timp ce conduceți, nu vă puteți uita la o hartă, dar puteți asculta instrucțiunile. Indiferent de destinație, majoritatea aplicațiilor GPS vă pot oferi alerte vocale utile în timp ce călătoriți, unele în mai multe limbi.
Este disponibilă asistență vocală. Asistenții audio inteligenți, cum ar fi Siri (iPhone) și Alexa (Android), sunt excelenți pentru multitasking, permițându-vă să comandați pizza sau să ascultați buletinul meteo în timp ce îndepliniți alte sarcini fizice (de exemplu, spălarea vaselor) datorită inteligibilității lor. Deși acești asistenți fac ocazional greșeli și sunt adesea concepuți ca personaje feminine aservite, ei sună destul de realist.

Care este istoria sintezei vocale?

Inventatorul Wolfgang von Kempelen aproape că a reușit acest lucru cu burdufuri și tuburi în secolul al XVIII-lea.
În 1928, Homer W. Dudley, un om de știință american de la Bell Laboratories/ Bell Labs, a creat Vocoder, un analizor electronic de vorbire. Dudley transformă Vocoderul în Voder, un sintetizator electronic de vorbire operat prin intermediul unei tastaturi.
Homer Dudley de la Bell Laboratories a demonstrat primul sintetizator vocal funcțional din lume, Voder, la Expoziția Mondială din 1939 de la New York. Un operator uman era necesar pentru a acționa clapele și pedala de picior ale masivului aparat asemănător unei orgi.
Cercetătorii s-au bazat pe Voder în următoarele câteva decenii. Primele sisteme de sinteză a vorbirii bazate pe calculator au fost dezvoltate la sfârșitul anilor 1950, iar Bell Laboratories a intrat din nou în istorie în 1961, când fizicianul John Larry Kelly Jr. a ținut un discurs pe IBM 704.
Circuitele integrate au făcut posibile produsele comerciale de sinteză vocală în telecomunicații și jocuri video în anii 1970 și 1980. Cipul Vortex, utilizat în jocurile arcade, a fost unul dintre primele circuite integrate de sinteză vocală.
Texas Instruments și-a făcut un nume în 1980 cu sintetizatorul Speak N Spell, care a fost folosit ca ajutor electronic de lectură pentru copii.
De la începutul anilor 1990, sistemele de operare standard pentru calculatoare au inclus sintetizatoare vocale, în principal pentru dictare și transcriere. În plus, TTS este utilizat în prezent în diverse scopuri, iar vocile sintetice au devenit remarcabil de precise pe măsură ce inteligența artificială și învățarea automată au avansat.

Cum funcționează sinteza vorbirii?

Sinteza vorbirii funcționează în trei etape: de la text la cuvinte, de la cuvinte la foneme și de la foneme la sunete.

1. Transformarea textului în cuvinte

Sinteza vorbirii începe cu preprocesarea sau normalizarea, care reduce ambiguitatea prin alegerea celui mai bun mod de a citi un pasaj. Preprocesarea implică citirea și curățarea textului, astfel încât computerul să îl citească mai precis. Numerele, datele, orele, abrevierile, acronimele și caracterele speciale trebuie traduse. Pentru a determina pronunția cea mai probabilă, aceștia folosesc probabilitatea statistică sau rețele neuronale.

Homografiile – cuvinte care au pronunții similare, dar semnificații diferite – necesită o preprocesare. De asemenea, un sintetizator de vorbire nu poate înțelege „Vând mașina”, deoarece „vând” se poate pronunța „celulă”. Recunoscând ortografia („am un telefon mobil”), se poate ghici că „vând mașina” este corect. O soluție de recunoaștere vocală care transformă vocea umană în text, chiar și cu un vocabular complex.

2. De la cuvinte la foneme

După determinarea cuvintelor, sintetizatorul de vorbire produce sunete care conțin aceste cuvinte. Fiecare computer are nevoie de o listă alfabetică considerabilă de cuvinte și de informații despre cum se pronunță fiecare cuvânt. Ar avea nevoie de o listă a fonemelor care alcătuiesc sunetul fiecărui cuvânt. Fonemele sunt esențiale, deoarece există doar 26 de litere în alfabetul englezesc, dar peste 40 de foneme.

Teoretic, dacă un computer are un dicționar de cuvinte și foneme, tot ce trebuie să facă este să citească un cuvânt, să-l caute în dicționar și apoi să citească fonemele corespunzătoare. Cu toate acestea, în practică, este mult mai complexă decât pare.

Metoda alternativă constă în descompunerea cuvintelor scrise în grafeme și generarea fonemelor care le corespund, folosind reguli simple.

3. Fonemele la sunet

Calculatorul a convertit textul într-o listă de foneme. Dar cum găsiți fonemele de bază pe care computerul le citește cu voce tare atunci când convertește textul în vorbire în diferite limbi? Există trei abordări în acest sens.

Pentru început, se vor folosi înregistrări cu oameni care pronunță fonemele.
Cea de-a doua abordare constă în generarea de către computer a fonemelor folosind frecvențele fundamentale ale sunetului.
Abordarea finală este de a imita tehnica vocii umane în timp real, cu ajutorul unor algoritmi de înaltă calitate, prin intermediul unor sunete naturale.

Sinteza concatenată

Sintetizatoarele de vorbire care utilizează voci umane înregistrate trebuie să fie preîncărcate cu o cantitate mică de sunet uman care poate fi manipulat. De asemenea, se bazează pe vorbirea umană care a fost înregistrată.

Ce este sinteza formantului?

Formantele sunt cele 3-5 frecvențe cheie (rezonante) ale sunetului generate și combinate de coarda vocală umană pentru a produce sunetul vorbirii sau al cântatului. Sintetizatoarele de vorbire formante pot spune orice, inclusiv cuvinte inexistente și străine de care nu au auzit niciodată. Sinteza aditivă și sinteza prin modelare fizică sunt utilizate pentru generarea sintezei vocale sintetizate.

Ce este sinteza articulatorie?

Sinteza articulatorie constă în a face computerele să vorbească prin simularea tractului vocal uman complex și articularea procesului care are loc acolo. Din cauza complexității sale, este metoda pe care cercetătorii au studiat-o cel mai puțin până acum.

Pe scurt, software-ul de sinteză vocală/ sinteza text-to-speech permite utilizatorilor să vadă textul scris, să îl audă și să îl citească cu voce tare, toate în același timp. Diferite programe utilizează atât voci generate de calculator, cât și voci înregistrate de oameni. Sinteza vocală devine din ce în ce mai populară pe măsură ce crește cererea de implicare a clienților și de eficientizare a proceselor organizaționale. Aceasta facilitează rentabilitatea pe termen lung.