Hur fungerar talsyntes?

Textanalys och språklig bearbetning

Speaktor 2023-07-13

Talsynteser förändrar kulturen på arbetsplatsen. En talsyntes läser upp texten. Text till tal är när en dator läser upp ett ord högt. Det handlar om att få maskinerna att tala enkelt och låta som människor i olika åldrar och kön. Text-till-tal-motorer blir allt populärare i takt med att digitala tjänster och röstigenkänning växer.

Vad är talsyntes?

Talsyntes, även kallad text till tal (TTS-system), är en datorgenererad simulering av den mänskliga rösten. Talsynteser omvandlar skrivna ord till talat språk.

Under en vanlig dag kommer du sannolikt att stöta på olika typer av syntetiskt tal. Tekniken för talsyntes, med hjälp av appar, smarta högtalare och trådlösa hörlurar, gör livet enklare genom att förbättra det:

Tillgänglighet: Om du är synskadad eller funktionshindrad kan du använda text till tal-system för att läsa textinnehåll eller en skärmläsare för att tala orden högt. Till exempel är text-till-tal-syntesen på TikTok en populär tillgänglighetsfunktion som gör det möjligt för vem som helst att konsumera visuellt innehåll i sociala medier.
Navigering: När du kör kan du inte titta på en karta, men du kan lyssna på instruktioner. Oavsett destination kan de flesta GPS-appar ge röstvarningar under resan, ibland på flera språk.
Röstassistans är tillgänglig. Intelligenta ljudassistenter som Siri (iPhone) och Alexa (Android) är utmärkta för multitasking, så att du kan beställa pizza eller lyssna på väderleksrapporten samtidigt som du utför andra fysiska uppgifter (t.ex. diskning) tack vare deras intelligibilitet. Även om assistenterna ibland gör misstag och ofta är utformade som underordnade kvinnliga karaktärer, låter de ganska verklighetstrogna.

Vad är talsyntesens historia?

Uppfinnaren Wolfgang von Kempelen var nära att nå dit med bälgar och rör på 1700-talet.
1928 skapade Homer W. Dudley, en amerikansk forskare vid Bell Laboratories/Bell Labs, Vocoder, en elektronisk talanalysator. Dudley utvecklar Vocoder till Voder, en elektronisk talsyntes som styrs via ett tangentbord.
Homer Dudley från Bell Laboratories demonstrerade världens första fungerande röstsyntes, Voder, på världsutställningen i New York 1939. Det krävdes en mänsklig operatör för att manövrera den massiva orgelliknande apparatens tangenter och fotpedal.
Forskare byggde vidare på Voder under de följande decennierna. De första datorbaserade talsyntessystemen utvecklades i slutet av 1950-talet och Bell Laboratories skrev återigen historia 1961 när fysikern John Larry Kelly Jr. höll ett IBM 704-tal.
Integrerade kretsar möjliggjorde kommersiella talsyntesprodukter inom telekommunikation och videospel på 1970- och 1980-talen. Vortex-chipet, som användes i arkadspel, var en av de första integrerade kretsarna för talsyntes.
Texas Instruments gjorde sig ett namn 1980 med synthesizern Speak N Spell, som användes som ett elektroniskt läshjälpmedel för barn.
Sedan början av 1990-talet har standardoperativsystem för datorer inkluderat talsynteser, främst för diktering och transkription. Dessutom används TTS nu för olika ändamål, och syntetiska röster har blivit anmärkningsvärt exakta i takt med att artificiell intelligens och maskininlärning har utvecklats.

Hur fungerar talsyntes?

Talsyntesen fungerar i tre steg: text till ord, ord till fonem och fonem till ljud.

1. Text till ord

Talsyntesen börjar med förbehandling eller normalisering, som minskar tvetydigheten genom att välja det bästa sättet att läsa en passage. Förbehandling innebär att texten läses och rensas så att datorn kan läsa den mer exakt. Siffror, datum, tider, förkortningar, akronymer och specialtecken behöver översättas. För att bestämma det mest sannolika uttalet använder de statistisk sannolikhet eller neurala nätverk.

Homografer – ord som har liknande uttal men olika betydelser – måste hanteras genom förbearbetning. En talsyntes kan inte heller förstå ”jag säljer bilen” eftersom ”sell” kan uttalas som ”cell”. Genom att känna igen stavningen (”Jag har en mobiltelefon”) kan man gissa att ”Jag säljer bilen” är korrekt. En lösning för taligenkänning som omvandlar mänsklig röst till text, även med komplex vokabulär.

2. Ord till fonem

Efter att ha bestämt orden producerar talsyntesen ljud som innehåller dessa ord. Varje dator behöver en omfattande alfabetisk lista över ord och information om hur varje ord ska uttalas. De behöver en lista över de fonem som utgör ljudet i varje ord. Fonemerna är viktiga eftersom det engelska alfabetet bara har 26 bokstäver men över 40 fonem.

Om en dator har en ordbok med ord och fonem kan den i teorin bara läsa ett ord, slå upp det i ordboken och sedan läsa upp motsvarande fonem. I praktiken är det dock mycket mer komplicerat än vad det verkar.

Den alternativa metoden går ut på att bryta ner skrivna ord i grafem och skapa fonem som motsvarar dem med hjälp av enkla regler.

3. Fonem till ljud

Datorn har nu omvandlat texten till en lista med fonem. Men hur hittar man de grundläggande fonem som datorn läser högt när den omvandlar text till tal på olika språk? Det finns tre olika sätt att göra detta.

Till att börja med kommer inspelningar av människor som säger fonemen att användas.
Den andra metoden är att datorn genererar fonem med hjälp av grundläggande ljudfrekvenser.
Den sista metoden är att efterlikna den mänskliga rösttekniken i realtid genom naturligt ljud med högkvalitativa algoritmer.

Sammanhängande syntes

Talsynteser som använder inspelade mänskliga röster måste förinstalleras med en liten mängd mänskligt ljud som kan manipuleras. Dessutom är den baserad på mänskligt tal som har spelats in.

Vad är formantsyntes?

Formanter är de 3-5 huvudfrekvenser (resonansfrekvenser) av ljud som genereras och kombineras av den mänskliga stämbanden för att producera ljudet av tal eller sång. Formant talsynteser kan säga vad som helst, inklusive obefintliga och främmande ord som de aldrig har hört talas om. Additiv syntes och syntes med fysisk modellering används för att generera det syntetiserade talet.

Vad är artikulationssyntes?

Articulatorisk syntes innebär att datorer kan tala genom att simulera människans intrikata stämband och artikulera den process som sker där. På grund av dess komplexitet är det den metod som minst forskare hittills har studerat minst.

I korthet kan man säga att röstsyntesprogramvara/text-till-tal-syntes gör det möjligt för användare att se skriven text, höra den och läsa den högt, allt på samma gång. Olika programvaror använder både datorgenererade och mänskligt inspelade röster. Talsyntes blir allt populärare i takt med att efterfrågan på kundbemötande och effektivisering av organisatoriska processer ökar. Det underlättar långsiktig lönsamhet.