Hvordan fungerer talesyntese?

Tekstanalyse og lingvistisk behandling

Speaktor 2023-07-13

Talesynthesizere er ved at ændre kulturen på arbejdspladsen. En talesyntese læser teksten op. Tekst-til-tale er, når en computer læser et ord højt. Det er at få maskinerne til at tale enkelt og lyde som mennesker i forskellige aldre og køn. Tekst-til-tale-maskiner bliver mere og mere populære i takt med, at digitale tjenester og stemmegenkendelse vokser.

Hvad er talesyntese?

Talesyntese, også kendt som tekst-til-tale-system (TTS-system), er en computergenereret simulering af den menneskelige stemme. Talesynteseapparater omdanner skrevne ord til talesprog.

I løbet af en typisk dag vil du sandsynligvis støde på forskellige typer syntetisk tale. Talesyntese-teknologi, der understøttes af apps, smarte højttalere og trådløse hovedtelefoner, gør livet lettere ved at forbedre det:

Tilgængelighed: Hvis du er synshandicappet eller handicappet, kan du bruge tekst til tale-system til at læse tekstindhold eller en skærmlæser til at tale ord højt. F.eks. er tekst-til-tale-synteseapparatet på TikTok en populær tilgængelighedsfunktion, som gør det muligt for alle at bruge visuelt indhold på sociale medier.
Navigation: Under kørslen kan du ikke se på et kort, men du kan lytte til instruktioner. Uanset din destination kan de fleste GPS-apps give nyttige stemmealarmer undervejs, nogle på flere sprog.
Der er mulighed for stemmestyring. Intelligente lydassistenter som Siri (iPhone) og Alexa (Android) er fremragende til multitasking, så du kan bestille pizza eller lytte til vejrudsigten, mens du udfører andre fysiske opgaver (f.eks. vaske op) takket være deres forståelighed. Selv om disse assistenter af og til begår fejl og ofte er udformet som underordnede kvindelige figurer, lyder de ret virkelighedstro.

Hvad er talesyntesens historie?

Opfinderen Wolfgang von Kempelen var tæt på at nå dertil med bælge og rør tilbage i det 18. århundrede.
I 1928 skabte Homer W. Dudley, en amerikansk videnskabsmand fra Bell Laboratories/Bell Labs, Vocoderen, en elektronisk taleanalysator. Dudley udvikler Vocoderen til Voder, en elektronisk talesynteseapparat, der betjenes via et tastatur.
Homer Dudley fra Bell Laboratories demonstrerede verdens første funktionelle stemmesynthesizer, Voder, på verdensudstillingen i 1939 i New York. En menneskelig operatør var nødvendig for at betjene det massive orgellignende apparat med tangenter og fodpedal.
Forskerne byggede videre på Voder i de næste årtier. De første computerbaserede talesyntese-systemer blev udviklet i slutningen af 1950’erne, og Bell Laboratories skrev igen historie i 1961, da fysikeren John Larry Kelly Jr. holdt en IBM 704-tale.
Integrerede kredsløb gjorde det muligt at udvikle kommercielle talesynteseprodukter inden for telekommunikation og videospil i 1970’erne og 1980’erne. Vortex-chippen, der blev brugt i arkadespil, var et af de første integrerede kredsløb med talesyntese.
Texas Instruments blev kendt i 1980 med Speak N Spell-synthesizeren, som blev brugt som elektronisk læsehjælp til børn.
Siden begyndelsen af 1990’erne har standardcomputerstyresystemer indeholdt talesynteseapparater, primært til diktering og transskription. Desuden anvendes TTS nu til forskellige formål, og syntetiske stemmer er blevet utroligt præcise i takt med at kunstig intelligens og maskinlæring er blevet mere avanceret.

Hvordan fungerer talesyntese?

Talesyntese fungerer i tre faser: tekst til ord, ord til fonemer og fonemer til lyd.

1. Tekst til ord

Talesyntese begynder med forbehandling eller normalisering, som reducerer tvetydighed ved at vælge den bedste måde at læse en passage på. Forbehandling omfatter læsning og rensning af teksten, så computeren læser den mere præcist. Tal, datoer, tidspunkter, forkortelser, akronymer og specialtegn skal oversættes. For at bestemme den mest sandsynlige udtale bruger de statistisk sandsynlighed eller neurale netværk til at bestemme den mest sandsynlige udtale.

Homografer – ord, der har samme udtale, men forskellige betydninger, skal håndteres ved hjælp af forbehandling. En talesyntese kan heller ikke forstå “jeg sælger bilen”, fordi “sell” kan udtales “cell”. Ved at genkende stavemåden (“Jeg har en mobiltelefon”) kan man gætte, at “Jeg sælger bilen” er korrekt. En talegenkendelsesløsning til at omdanne menneskelig stemme til tekst, selv med komplekst ordforråd.

2. Ord til fonemer

Efter at have bestemt ordene producerer talesyntesizeren lyde, der indeholder disse ord. Alle computere har brug for en omfattende alfabetisk liste over ord og oplysninger om, hvordan hvert ord udtales. De skal bruge en liste over de fonemer, der udgør lyden af hvert ord. Fonemer er afgørende, da der kun er 26 bogstaver i det engelske alfabet, men over 40 fonemer.

Hvis en computer har en ordbog med ord og fonemer, skal den i teorien blot læse et ord, slå det op i ordbogen og derefter læse de tilsvarende fonemer op. I praksis er det dog langt mere kompliceret, end det ser ud til.

Den alternative metode går ud på at opdele skrevne ord i grafemer og generere fonemer, der svarer til dem, ved hjælp af enkle regler.

3. Fonemer til lyd

Computeren har nu omdannet teksten til en liste over fonemer. Men hvordan finder du de grundlæggende fonemer, som computeren læser højt, når den omsætter tekst til tale på forskellige sprog? Der er tre måder at gribe dette an på.

Til at begynde med vil man bruge optagelser af mennesker, der siger fonemerne.
Den anden metode er, at computeren genererer fonemer ved hjælp af grundlæggende lydfrekvenser.
Den sidste tilgang er at efterligne den menneskelige stemmeteknik i realtid ved at efterligne naturlig lyd med algoritmer af høj kvalitet.

Konkatenativ syntese

Talesynteseapparater, der bruger indspillede menneskelige stemmer, skal være forudindlæst med en lille mængde menneskelig lyd, der kan manipuleres. Den er også baseret på menneskelig tale, der er blevet optaget.

Hvad er formantsyntese?

Formanter er de 3-5 hovedfrekvenser (resonansfrekvenser) af lyd, der genereres og kombineres af den menneskelige stemmebånd for at frembringe lyden af tale eller sang. Formant-talesynteseapparater kan sige hvad som helst, herunder ikke-eksisterende og fremmedord, som de aldrig har hørt om. Additiv syntese og fysisk modelleringssyntese anvendes til at generere den syntetiserede taleudgang.

Hvad er artikulationssyntese?

Artikulationssyntese er at få computere til at tale ved at simulere den indviklede menneskelige stemmebane og artikulere den proces, der foregår der. På grund af dens kompleksitet er det den metode, som de færreste forskere har undersøgt mindst indtil nu.

Kort sagt giver stemmesyntese-software/tekst-til-tale-syntese brugerne mulighed for at se, høre og læse skrevet tekst på samme tid. Forskellige programmer gør brug af både computergenererede og menneskeligt indspillede stemmer. Talesyntese bliver mere og mere populært i takt med, at efterspørgslen efter kundeengagement og effektivisering af organisatoriske processer vokser. Det letter den langsigtede rentabilitet.