Talgervlar eru að umbreyta menningu á vinnustað. Talgervil les textann. Texti í tal er þegar tölva les orð upphátt. Það er að láta vélar tala einfaldlega og hljóma eins og fólk á mismunandi aldri og kyni. Texta-til-tal vélar verða vinsælli eftir því sem stafræn þjónusta og raddþekking vex.

Hvað er talgervil?

Talgervla, einnig þekkt sem texta-til-tal (TTS-kerfi), er tölvugerð eftirlíking af mannsröddinni. Talgervlar breyta skrifuðum orðum í talað mál.

Allan venjulegan dag er líklegt að þú lendir í ýmsum tegundum af tilbúnu tali. Talgervlatækni, með aðstoð forrita, snjallhátalara og þráðlausra heyrnartóla, auðveldar lífið með því að bæta:

Hver er saga talgervils?

Hvernig virkar talgervill?

Talgervill virkar í þremur þrepum: texta í orð, orð í hljóðhljóm og hljóðhljóð.

1. Texti í orð

Talgervil byrjar með forvinnslu eða eðlilegri stillingu, sem dregur úr tvíræðni með því að velja bestu leiðina til að lesa kafla. Forvinnsla felst í því að lesa og þrífa textann, þannig að tölvan lesi hann nákvæmari. Tölur, dagsetningar, tímasetningar, skammstafanir, skammstafanir og sérstafir þarfnast þýðinga. Til að ákvarða líklegasta framburðinn nota þeir tölfræðilegar líkur eða taugakerfi.

Samheiti — orð sem hafa svipaðan framburð en mismunandi merkingu krefjast meðhöndlunar með forvinnslu. Einnig getur talgervill ekki skilið „ég sel bílinn“ vegna þess að „selja“ er hægt að bera fram „selja“. Með því að þekkja stafsetninguna („ég á farsíma“) má giska á að „ég sel bílinn“ sé rétt. Talgreiningarlausn til að umbreyta mannlegri rödd í texta, jafnvel með flóknum orðaforða.

2. Orð við hljóðhljóð

Eftir að hafa ákvarðað orðin framleiðir talgervilinn hljóð sem innihalda þessi orð. Sérhver tölva krefst umtalsverðs stafrófslista yfir orð og upplýsingar um hvernig á að bera fram hvert orð. Þeir þyrftu lista yfir hljóðin sem mynda hljóð hvers orðs. Hljóð eru mikilvæg þar sem það eru aðeins 26 stafir í enska stafrófinu en yfir 40 hljóðnemar.

Fræðilega séð, ef tölva er með orðabók með orðum og hljóðum, þarf hún bara að lesa orð, fletta því upp í orðabókinni og lesa síðan upp samsvarandi hljóðmerki. Hins vegar, í reynd, er það miklu flóknara en það virðist.

Önnur aðferð felur í sér að brjóta niður skrifuð orð í grafem og búa til hljóðmerki sem samsvara þeim með einföldum reglum.

3. Hljóð til að hljóma

Tölvan hefur nú breytt textanum í lista yfir hljóðmerki. En hvernig finnur þú grunnhljóðin sem tölvan les upp þegar hún breytir texta í tal á mismunandi tungumálum? Það eru þrjár aðferðir við þetta.

Samtenging

Talgervlar sem nota hljóðritaðar mannaraddir verða að vera forhlaðnir með litlu magni af mannshljóði sem hægt er að vinna með. Einnig er það byggt á tali manna sem hefur verið skráð.

Hvað er Formant Synthesis?

Formantar eru 3-5 lykiltíðni (resonant) hljóðs sem myndast og sameinuð af raddbandi mannsins til að framleiða hljóð ræðu eða söngs. Formant talgervlar geta sagt hvað sem er, þar á meðal engin og erlend orð sem þeir hafa aldrei heyrt um. Aukamyndun og eðlisfræðileg líkanmyndun eru notuð til að búa til tilbúið talúttak.

Hvað er liðmyndun?

Articulatory Synthese er að láta tölvur tala með því að líkja eftir flóknu raddkerfi mannsins og orða ferlið sem á sér stað þar. Vegna þess hve hún er flókin er hún sú aðferð sem fæstir rannsakendur hafa rannsakað minnst fram að þessu.

Í stuttu máli, raddgervihugbúnaður/texta-til-talgervill gerir notendum kleift að sjá skrifaðan texta, heyra hann og lesa hann upphátt allt á sama tíma. Mismunandi hugbúnaður notar bæði tölvugerðar og mannlegar raddir. Talgervill er að verða vinsælli eftir því sem eftirspurnin eftir þátttöku viðskiptavina og hagræðingu í skipulagsferli eykst. Það auðveldar arðsemi til lengri tíma litið.