Talesynthesizere er ved at ændre kulturen på arbejdspladsen. En talesyntese læser teksten op. Tekst-til-tale er, når en computer læser et ord højt. Det er at få maskinerne til at tale enkelt og lyde som mennesker i forskellige aldre og køn. Tekst-til-tale-maskiner bliver mere og mere populære i takt med, at digitale tjenester og stemmegenkendelse vokser.

Hvad er talesyntese?

Talesyntese, også kendt som tekst-til-tale-system (TTS-system), er en computergenereret simulering af den menneskelige stemme. Talesynteseapparater omdanner skrevne ord til talesprog.

I løbet af en typisk dag vil du sandsynligvis støde på forskellige typer syntetisk tale. Talesyntese-teknologi, der understøttes af apps, smarte højttalere og trådløse hovedtelefoner, gør livet lettere ved at forbedre det:

Hvad er talesyntesens historie?

Hvordan fungerer talesyntese?

Talesyntese fungerer i tre faser: tekst til ord, ord til fonemer og fonemer til lyd.

1. Tekst til ord

Talesyntese begynder med forbehandling eller normalisering, som reducerer tvetydighed ved at vælge den bedste måde at læse en passage på. Forbehandling omfatter læsning og rensning af teksten, så computeren læser den mere præcist. Tal, datoer, tidspunkter, forkortelser, akronymer og specialtegn skal oversættes. For at bestemme den mest sandsynlige udtale bruger de statistisk sandsynlighed eller neurale netværk til at bestemme den mest sandsynlige udtale.

Homografer – ord, der har samme udtale, men forskellige betydninger, skal håndteres ved hjælp af forbehandling. En talesyntese kan heller ikke forstå “jeg sælger bilen”, fordi “sell” kan udtales “cell”. Ved at genkende stavemåden (“Jeg har en mobiltelefon”) kan man gætte, at “Jeg sælger bilen” er korrekt. En talegenkendelsesløsning til at omdanne menneskelig stemme til tekst, selv med komplekst ordforråd.

2. Ord til fonemer

Efter at have bestemt ordene producerer talesyntesizeren lyde, der indeholder disse ord. Alle computere har brug for en omfattende alfabetisk liste over ord og oplysninger om, hvordan hvert ord udtales. De skal bruge en liste over de fonemer, der udgør lyden af hvert ord. Fonemer er afgørende, da der kun er 26 bogstaver i det engelske alfabet, men over 40 fonemer.

Hvis en computer har en ordbog med ord og fonemer, skal den i teorien blot læse et ord, slå det op i ordbogen og derefter læse de tilsvarende fonemer op. I praksis er det dog langt mere kompliceret, end det ser ud til.

Den alternative metode går ud på at opdele skrevne ord i grafemer og generere fonemer, der svarer til dem, ved hjælp af enkle regler.

3. Fonemer til lyd

Computeren har nu omdannet teksten til en liste over fonemer. Men hvordan finder du de grundlæggende fonemer, som computeren læser højt, når den omsætter tekst til tale på forskellige sprog? Der er tre måder at gribe dette an på.

Konkatenativ syntese

Talesynteseapparater, der bruger indspillede menneskelige stemmer, skal være forudindlæst med en lille mængde menneskelig lyd, der kan manipuleres. Den er også baseret på menneskelig tale, der er blevet optaget.

Hvad er formantsyntese?

Formanter er de 3-5 hovedfrekvenser (resonansfrekvenser) af lyd, der genereres og kombineres af den menneskelige stemmebånd for at frembringe lyden af tale eller sang. Formant-talesynteseapparater kan sige hvad som helst, herunder ikke-eksisterende og fremmedord, som de aldrig har hørt om. Additiv syntese og fysisk modelleringssyntese anvendes til at generere den syntetiserede taleudgang.

Hvad er artikulationssyntese?

Artikulationssyntese er at få computere til at tale ved at simulere den indviklede menneskelige stemmebane og artikulere den proces, der foregår der. På grund af dens kompleksitet er det den metode, som de færreste forskere har undersøgt mindst indtil nu.

Kort sagt giver stemmesyntese-software/tekst-til-tale-syntese brugerne mulighed for at se, høre og læse skrevet tekst på samme tid. Forskellige programmer gør brug af både computergenererede og menneskeligt indspillede stemmer. Talesyntese bliver mere og mere populært i takt med, at efterspørgslen efter kundeengagement og effektivisering af organisatoriske processer vokser. Det letter den langsigtede rentabilitet.