Cum funcționează sinteza vorbirii?

Analiza textului și prelucrarea lingvistică

Sintetizatoarele de vorbire transformă cultura locului de muncă. O sinteză vocală citește textul. Text-to-speech este atunci când un computer citește un cuvânt cu voce tare. Este vorba de a face ca mașinile să vorbească simplu și să sune ca oameni de vârste și sexe diferite. Motoarele text-to-speech devin din ce în ce mai populare pe măsură ce serviciile digitale și recunoașterea vocală se dezvoltă.

Ce este sinteza vorbirii?

Sinteza vocală, cunoscută și sub numele de text-to-speech (sistem TTS), este o simulare a vocii umane generată de un computer. Sintetizatoarele de vorbire convertesc cuvintele scrise în limbaj vorbit.

Pe parcursul unei zile obișnuite, este posibil să întâlniți diverse tipuri de discurs sintetic. Tehnologia de sinteză vocală, cu ajutorul aplicațiilor, al difuzoarelor inteligente și al căștilor wireless, ușurează viața prin îmbunătățirea:

  • Accesibilitate: Dacă aveți deficiențe de vedere sau un handicap, puteți utiliza un sistem text to speech pentru a citi conținutul textului sau un cititor de ecran pentru a rosti cuvintele cu voce tare. De exemplu, sintetizatorul Text-to-Speech de pe TikTok este o caracteristică populară de accesibilitate care permite oricui să consume conținut vizual de social media.
  • Navigație: În timp ce conduceți, nu vă puteți uita la o hartă, dar puteți asculta instrucțiunile. Indiferent de destinație, majoritatea aplicațiilor GPS vă pot oferi alerte vocale utile în timp ce călătoriți, unele în mai multe limbi.
  • Este disponibilă asistență vocală. Asistenții audio inteligenți, cum ar fi Siri (iPhone) și Alexa (Android), sunt excelenți pentru multitasking, permițându-vă să comandați pizza sau să ascultați buletinul meteo în timp ce îndepliniți alte sarcini fizice (de exemplu, spălarea vaselor) datorită inteligibilității lor. Deși acești asistenți fac ocazional greșeli și sunt adesea concepuți ca personaje feminine aservite, ei sună destul de realist.

Care este istoria sintezei vocale?

  • Inventatorul Wolfgang von Kempelen aproape că a reușit acest lucru cu burdufuri și tuburi în secolul al XVIII-lea.
  • În 1928, Homer W. Dudley, un om de știință american de la Bell Laboratories/ Bell Labs, a creat Vocoder, un analizor electronic de vorbire. Dudley transformă Vocoderul în Voder, un sintetizator electronic de vorbire operat prin intermediul unei tastaturi.
  • Homer Dudley de la Bell Laboratories a demonstrat primul sintetizator vocal funcțional din lume, Voder, la Expoziția Mondială din 1939 de la New York. Un operator uman era necesar pentru a acționa clapele și pedala de picior ale masivului aparat asemănător unei orgi.
  • Cercetătorii s-au bazat pe Voder în următoarele câteva decenii. Primele sisteme de sinteză a vorbirii bazate pe calculator au fost dezvoltate la sfârșitul anilor 1950, iar Bell Laboratories a intrat din nou în istorie în 1961, când fizicianul John Larry Kelly Jr. a ținut un discurs pe IBM 704.
  • Circuitele integrate au făcut posibile produsele comerciale de sinteză vocală în telecomunicații și jocuri video în anii 1970 și 1980. Cipul Vortex, utilizat în jocurile arcade, a fost unul dintre primele circuite integrate de sinteză vocală.
  • Texas Instruments și-a făcut un nume în 1980 cu sintetizatorul Speak N Spell, care a fost folosit ca ajutor electronic de lectură pentru copii.
  • De la începutul anilor 1990, sistemele de operare standard pentru calculatoare au inclus sintetizatoare vocale, în principal pentru dictare și transcriere. În plus, TTS este utilizat în prezent în diverse scopuri, iar vocile sintetice au devenit remarcabil de precise pe măsură ce inteligența artificială și învățarea automată au avansat.

Cum funcționează sinteza vorbirii?

Sinteza vorbirii funcționează în trei etape: de la text la cuvinte, de la cuvinte la foneme și de la foneme la sunete.

1. Transformarea textului în cuvinte

Sinteza vorbirii începe cu preprocesarea sau normalizarea, care reduce ambiguitatea prin alegerea celui mai bun mod de a citi un pasaj. Preprocesarea implică citirea și curățarea textului, astfel încât computerul să îl citească mai precis. Numerele, datele, orele, abrevierile, acronimele și caracterele speciale trebuie traduse. Pentru a determina pronunția cea mai probabilă, aceștia folosesc probabilitatea statistică sau rețele neuronale.

Homografiile – cuvinte care au pronunții similare, dar semnificații diferite – necesită o preprocesare. De asemenea, un sintetizator de vorbire nu poate înțelege „Vând mașina”, deoarece „vând” se poate pronunța „celulă”. Recunoscând ortografia („am un telefon mobil”), se poate ghici că „vând mașina” este corect. O soluție de recunoaștere vocală care transformă vocea umană în text, chiar și cu un vocabular complex.

2. De la cuvinte la foneme

După determinarea cuvintelor, sintetizatorul de vorbire produce sunete care conțin aceste cuvinte. Fiecare computer are nevoie de o listă alfabetică considerabilă de cuvinte și de informații despre cum se pronunță fiecare cuvânt. Ar avea nevoie de o listă a fonemelor care alcătuiesc sunetul fiecărui cuvânt. Fonemele sunt esențiale, deoarece există doar 26 de litere în alfabetul englezesc, dar peste 40 de foneme.

Teoretic, dacă un computer are un dicționar de cuvinte și foneme, tot ce trebuie să facă este să citească un cuvânt, să-l caute în dicționar și apoi să citească fonemele corespunzătoare. Cu toate acestea, în practică, este mult mai complexă decât pare.

Metoda alternativă constă în descompunerea cuvintelor scrise în grafeme și generarea fonemelor care le corespund, folosind reguli simple.

3. Fonemele la sunet

Calculatorul a convertit textul într-o listă de foneme. Dar cum găsiți fonemele de bază pe care computerul le citește cu voce tare atunci când convertește textul în vorbire în diferite limbi? Există trei abordări în acest sens.

  • Pentru început, se vor folosi înregistrări cu oameni care pronunță fonemele.
  • Cea de-a doua abordare constă în generarea de către computer a fonemelor folosind frecvențele fundamentale ale sunetului.
  • Abordarea finală este de a imita tehnica vocii umane în timp real, cu ajutorul unor algoritmi de înaltă calitate, prin intermediul unor sunete naturale.

Sinteza concatenată

Sintetizatoarele de vorbire care utilizează voci umane înregistrate trebuie să fie preîncărcate cu o cantitate mică de sunet uman care poate fi manipulat. De asemenea, se bazează pe vorbirea umană care a fost înregistrată.

Ce este sinteza formantului?

Formantele sunt cele 3-5 frecvențe cheie (rezonante) ale sunetului generate și combinate de coarda vocală umană pentru a produce sunetul vorbirii sau al cântatului. Sintetizatoarele de vorbire formante pot spune orice, inclusiv cuvinte inexistente și străine de care nu au auzit niciodată. Sinteza aditivă și sinteza prin modelare fizică sunt utilizate pentru generarea sintezei vocale sintetizate.

Ce este sinteza articulatorie?

Sinteza articulatorie constă în a face computerele să vorbească prin simularea tractului vocal uman complex și articularea procesului care are loc acolo. Din cauza complexității sale, este metoda pe care cercetătorii au studiat-o cel mai puțin până acum.

Pe scurt, software-ul de sinteză vocală/ sinteza text-to-speech permite utilizatorilor să vadă textul scris, să îl audă și să îl citească cu voce tare, toate în același timp. Diferite programe utilizează atât voci generate de calculator, cât și voci înregistrate de oameni. Sinteza vocală devine din ce în ce mai populară pe măsură ce crește cererea de implicare a clienților și de eficientizare a proceselor organizaționale. Aceasta facilitează rentabilitatea pe termen lung.

Împărtășiți postarea:

I.A. de ultimă generație.

Începeți acum cu Speaktor!

Articole conexe

Deschiderea funcției text-to-speech pe TikTok
Speaktor

Cum să utilizați Text To Speech pe TikTok?

Una dintre cele mai mari vedete ale TikTok este funcția text-to-speech voice. În loc să suprapuneți pur și simplu textul în videoclip, acum puteți obține subtitrări citite cu voce tare

Speaktor

Cum se utilizează Text to Speech pe Discord?

Cum să faceți ca Discord să vă citească mesajele? În forma sa cea mai simplă, puteți utiliza comanda „/tts” pentru a utiliza funcția text-to-speech. După ce tastați /tts, lăsați un

Personalizarea setărilor text-to-speech în Google Docs
Speaktor

Cum se activează Text to Speech cu Google Docs?

Cum se activează extensia Google „Screen Reader” Text to Speech? Primul lucru care trebuie știut este că doar browserul Google Chrome suportă extensia „Screen Reader” oferită de Google, care oferă

Conversia textului în vorbire pe Instagram
Speaktor

Cum se convertește textul în vorbire pe Instagram?

Cum să adăugați Text to Speech pe rolele Instagram? Text-to-speech este una dintre cele mai recente actualizări ale Instagram. Funcția de citire a textului cu voce tare din Instagram convertește