Talsynteser förändrar kulturen på arbetsplatsen. En talsyntes läser upp texten. Text till tal är när en dator läser upp ett ord högt. Det handlar om att få maskinerna att tala enkelt och låta som människor i olika åldrar och kön. Text-till-tal-motorer blir allt populärare i takt med att digitala tjänster och röstigenkänning växer.

Vad är talsyntes?

Talsyntes, även kallad text till tal (TTS-system), är en datorgenererad simulering av den mänskliga rösten. Talsynteser omvandlar skrivna ord till talat språk.

Under en vanlig dag kommer du sannolikt att stöta på olika typer av syntetiskt tal. Tekniken för talsyntes, med hjälp av appar, smarta högtalare och trådlösa hörlurar, gör livet enklare genom att förbättra det:

Vad är talsyntesens historia?

Hur fungerar talsyntes?

Talsyntesen fungerar i tre steg: text till ord, ord till fonem och fonem till ljud.

1. Text till ord

Talsyntesen börjar med förbehandling eller normalisering, som minskar tvetydigheten genom att välja det bästa sättet att läsa en passage. Förbehandling innebär att texten läses och rensas så att datorn kan läsa den mer exakt. Siffror, datum, tider, förkortningar, akronymer och specialtecken behöver översättas. För att bestämma det mest sannolika uttalet använder de statistisk sannolikhet eller neurala nätverk.

Homografer – ord som har liknande uttal men olika betydelser – måste hanteras genom förbearbetning. En talsyntes kan inte heller förstå ”jag säljer bilen” eftersom ”sell” kan uttalas som ”cell”. Genom att känna igen stavningen (”Jag har en mobiltelefon”) kan man gissa att ”Jag säljer bilen” är korrekt. En lösning för taligenkänning som omvandlar mänsklig röst till text, även med komplex vokabulär.

2. Ord till fonem

Efter att ha bestämt orden producerar talsyntesen ljud som innehåller dessa ord. Varje dator behöver en omfattande alfabetisk lista över ord och information om hur varje ord ska uttalas. De behöver en lista över de fonem som utgör ljudet i varje ord. Fonemerna är viktiga eftersom det engelska alfabetet bara har 26 bokstäver men över 40 fonem.

Om en dator har en ordbok med ord och fonem kan den i teorin bara läsa ett ord, slå upp det i ordboken och sedan läsa upp motsvarande fonem. I praktiken är det dock mycket mer komplicerat än vad det verkar.

Den alternativa metoden går ut på att bryta ner skrivna ord i grafem och skapa fonem som motsvarar dem med hjälp av enkla regler.

3. Fonem till ljud

Datorn har nu omvandlat texten till en lista med fonem. Men hur hittar man de grundläggande fonem som datorn läser högt när den omvandlar text till tal på olika språk? Det finns tre olika sätt att göra detta.

Sammanhängande syntes

Talsynteser som använder inspelade mänskliga röster måste förinstalleras med en liten mängd mänskligt ljud som kan manipuleras. Dessutom är den baserad på mänskligt tal som har spelats in.

Vad är formantsyntes?

Formanter är de 3-5 huvudfrekvenser (resonansfrekvenser) av ljud som genereras och kombineras av den mänskliga stämbanden för att producera ljudet av tal eller sång. Formant talsynteser kan säga vad som helst, inklusive obefintliga och främmande ord som de aldrig har hört talas om. Additiv syntes och syntes med fysisk modellering används för att generera det syntetiserade talet.

Vad är artikulationssyntes?

Articulatorisk syntes innebär att datorer kan tala genom att simulera människans intrikata stämband och artikulera den process som sker där. På grund av dess komplexitet är det den metod som minst forskare hittills har studerat minst.

I korthet kan man säga att röstsyntesprogramvara/text-till-tal-syntes gör det möjligt för användare att se skriven text, höra den och läsa den högt, allt på samma gång. Olika programvaror använder både datorgenererade och mänskligt inspelade röster. Talsyntes blir allt populärare i takt med att efterfrågan på kundbemötande och effektivisering av organisatoriska processer ökar. Det underlättar långsiktig lönsamhet.