Hvernig virkar talgervill?

Textagreining og málfræðileg úrvinnsla
Textagreining og málfræðileg úrvinnsla

Speaktor 2023-07-13

Talgervlar eru að umbreyta menningu á vinnustað. Talgervil les textann. Texti í tal er þegar tölva les orð upphátt. Það er að láta vélar tala einfaldlega og hljóma eins og fólk á mismunandi aldri og kyni. Texta-til-tal vélar verða vinsælli eftir því sem stafræn þjónusta og raddþekking vex.

Hvað er talgervil?

Talgervla, einnig þekkt sem texta-til-tal (TTS-kerfi), er tölvugerð eftirlíking af mannsröddinni. Talgervlar breyta skrifuðum orðum í talað mál.

Allan venjulegan dag er líklegt að þú lendir í ýmsum tegundum af tilbúnu tali. Talgervlatækni, með aðstoð forrita, snjallhátalara og þráðlausra heyrnartóla, auðveldar lífið með því að bæta:

  • Aðgengi: Ef þú ert sjónskertur eða fatlaður geturðu notað texta í talkerfi til að lesa texta eða skjálesara til að tala orð upphátt. Til dæmis er texta-til-tal hljóðgervill á TikTok vinsæll aðgengisaðgerð sem gerir öllum kleift að neyta sjónræns efnis á samfélagsmiðlum.
  • Leiðsögn: Í akstri er ekki hægt að skoða kort, en þú getur hlustað á leiðbeiningar. Hver sem áfangastaðurinn er, geta flest GPS forrit veitt gagnlegar raddviðvaranir þegar þú ferðast, sum á mörgum tungumálum.
  • Raddaðstoð er í boði. Snjallir hljóðaðstoðarmenn eins og Siri (iPhone) og Alexa (Android) eru frábærir fyrir fjölverkavinnslu, sem gerir þér kleift að panta pizzu eða hlusta á veðurfréttir á meðan þú framkvæmir önnur líkamleg verkefni (td að þvo upp) þökk sé skiljanleika þeirra. Þó að þessir aðstoðarmenn geri stundum mistök og séu oft hönnuð sem undirgefin kvenpersónur, þá hljóma þeir frekar líflegir.

Hver er saga talgervils?

  • Uppfinningamaðurinn Wolfgang von Kempelen komst næstum því þangað með belg og slöngum aftur á 18. öld.
  • Árið 1928 bjó Homer W. Dudley, bandarískur vísindamaður við Bell Laboratories/Bell Labs, til Vocoder, rafrænan talgreiningartæki. Dudley þróar Vocoder í Voder, rafrænan talgervil sem stjórnað er í gegnum lyklaborð.
  • Homer Dudley frá Bell Laboratories sýndi fyrsta virka raddgervil heimsins, Voder, á heimssýningunni í New York 1939. Það þurfti að stjórna mannlegum stjórnanda til að stjórna lyklum og fótpedali hins stóra líffæralíka tækis.
  • Vísindamenn byggðu á Voder á næstu áratugum. Fyrstu tölvutengdu talgervillarkerfin voru þróuð seint á fimmta áratugnum og Bell Laboratories slógu í gegn aftur árið 1961 þegar eðlisfræðingurinn John Larry Kelly Jr. flutti IBM 704 erindi.
  • Samþættar rafrásir gerðu talgervilsvörur í atvinnuskyni mögulegar í fjarskiptum og tölvuleikjum á áttunda og níunda áratugnum. Vortex kubburinn, notaður í spilakassaleikjum, var ein af fyrstu samþættu rásunum fyrir talgervil.
  • Texas Instruments skapaði sér nafn árið 1980 með Speak N Spell hljóðgervlinum sem var notaður sem rafrænt lestrartæki fyrir börn.
  • Frá því snemma á tíunda áratugnum hafa staðlað tölvustýrikerfi innifalið talgervla, fyrst og fremst fyrir einræði og umritun. Að auki notar TTS nú í ýmsum tilgangi og tilbúnar raddir hafa orðið ótrúlega nákvæmar eftir því sem gervigreind og vélanám hafa fleygt fram.

Hvernig virkar talgervill?

Talgervill virkar í þremur þrepum: texta í orð, orð í hljóðhljóm og hljóðhljóð.

1. Texti í orð

Talgervil byrjar með forvinnslu eða eðlilegri stillingu, sem dregur úr tvíræðni með því að velja bestu leiðina til að lesa kafla. Forvinnsla felst í því að lesa og þrífa textann, þannig að tölvan lesi hann nákvæmari. Tölur, dagsetningar, tímasetningar, skammstafanir, skammstafanir og sérstafir þarfnast þýðinga. Til að ákvarða líklegasta framburðinn nota þeir tölfræðilegar líkur eða taugakerfi.

Samheiti — orð sem hafa svipaðan framburð en mismunandi merkingu krefjast meðhöndlunar með forvinnslu. Einnig getur talgervill ekki skilið „ég sel bílinn“ vegna þess að „selja“ er hægt að bera fram „selja“. Með því að þekkja stafsetninguna („ég á farsíma“) má giska á að „ég sel bílinn“ sé rétt. Talgreiningarlausn til að umbreyta mannlegri rödd í texta, jafnvel með flóknum orðaforða.

2. Orð við hljóðhljóð

Eftir að hafa ákvarðað orðin framleiðir talgervilinn hljóð sem innihalda þessi orð. Sérhver tölva krefst umtalsverðs stafrófslista yfir orð og upplýsingar um hvernig á að bera fram hvert orð. Þeir þyrftu lista yfir hljóðin sem mynda hljóð hvers orðs. Hljóð eru mikilvæg þar sem það eru aðeins 26 stafir í enska stafrófinu en yfir 40 hljóðnemar.

Fræðilega séð, ef tölva er með orðabók með orðum og hljóðum, þarf hún bara að lesa orð, fletta því upp í orðabókinni og lesa síðan upp samsvarandi hljóðmerki. Hins vegar, í reynd, er það miklu flóknara en það virðist.

Önnur aðferð felur í sér að brjóta niður skrifuð orð í grafem og búa til hljóðmerki sem samsvara þeim með einföldum reglum.

3. Hljóð til að hljóma

Tölvan hefur nú breytt textanum í lista yfir hljóðmerki. En hvernig finnur þú grunnhljóðin sem tölvan les upp þegar hún breytir texta í tal á mismunandi tungumálum? Það eru þrjár aðferðir við þetta.

  • Til að byrja, upptökur af mönnum sem segja að hljóðin muni nota.
  • Önnur aðferðin er að tölvan framleiði hljóðmerki með því að nota grunnhljóðtíðni.
  • Lokaaðferðin er að líkja eftir mannlegri raddtækni í rauntíma með náttúrulegum hljómi með hágæða reikniritum.

Samtenging

Talgervlar sem nota hljóðritaðar mannaraddir verða að vera forhlaðnir með litlu magni af mannshljóði sem hægt er að vinna með. Einnig er það byggt á tali manna sem hefur verið skráð.

Hvað er Formant Synthesis?

Formantar eru 3-5 lykiltíðni (resonant) hljóðs sem myndast og sameinuð af raddbandi mannsins til að framleiða hljóð ræðu eða söngs. Formant talgervlar geta sagt hvað sem er, þar á meðal engin og erlend orð sem þeir hafa aldrei heyrt um. Aukamyndun og eðlisfræðileg líkanmyndun eru notuð til að búa til tilbúið talúttak.

Hvað er liðmyndun?

Articulatory Synthese er að láta tölvur tala með því að líkja eftir flóknu raddkerfi mannsins og orða ferlið sem á sér stað þar. Vegna þess hve hún er flókin er hún sú aðferð sem fæstir rannsakendur hafa rannsakað minnst fram að þessu.

Í stuttu máli, raddgervihugbúnaður/texta-til-talgervill gerir notendum kleift að sjá skrifaðan texta, heyra hann og lesa hann upphátt allt á sama tíma. Mismunandi hugbúnaður notar bæði tölvugerðar og mannlegar raddir. Talgervill er að verða vinsælli eftir því sem eftirspurnin eftir þátttöku viðskiptavina og hagræðingu í skipulagsferli eykst. Það auðveldar arðsemi til lengri tíma litið.

Deila færslu

Texti í ræðu

img

Speaktor

Umbreyttu textanum þínum í rödd og lestu upphátt