Hvordan fungerer talesyntese?

Tekstanalyse og språklig bearbeiding

Speaktor 2023-07-13

Talesyntese transformerer kulturen på arbeidsplassen. En talesyntese leser teksten. Tekst-til-tale er når en datamaskin leser et ord høyt. Det er å få maskiner til å snakke enkelt og høres ut som mennesker i forskjellige aldre og kjønn. Tekst-til-tale-motorer blir mer populære etter hvert som digitale tjenester og stemmegjenkjenning vokser.

Hva er talesyntese?

Talesyntese, også kjent som tekst-til-tale (TTS-system), er en datamaskingenerert simulering av den menneskelige stemmen. Talesyntese konverterer skrevne ord til talespråk.

Gjennom en vanlig dag vil du sannsynligvis møte ulike typer syntetisk tale. Talesynteseteknologi, hjulpet av apper, smarthøyttalere og trådløse hodetelefoner, gjør livet enklere ved å forbedre:

Tilgjengelighet: Hvis du er synshemmet eller funksjonshemmet, kan du bruke tekst til tale-system for å lese tekstinnhold eller en skjermleser for å si ord høyt. For eksempel er tekst-til-tale-synthesizeren på TikTok en populær tilgjengelighetsfunksjon som lar hvem som helst konsumere visuelt innhold på sosiale medier.
Navigasjon: Mens du kjører kan du ikke se på et kart, men du kan lytte til instruksjoner. Uansett reisemål, kan de fleste GPS-apper gi nyttige stemmevarsler mens du reiser, noen på flere språk.
Talehjelp er tilgjengelig. Intelligente lydassistenter som Siri (iPhone) og Alexa (Android) er utmerket for multitasking, slik at du kan bestille pizza eller lytte til værmeldingen mens du utfører andre fysiske oppgaver (f.eks. vaske oppvasken) takket være deres forståelighet. Selv om disse assistentene av og til gjør feil og ofte er utformet som underdanige kvinnelige karakterer, høres de ganske naturtro ut.

Hva er historien til talesyntese?

Oppfinneren Wolfgang von Kempelen kom nesten dit med belg og rør tilbake på 1700-tallet.
I 1928 skapte Homer W. Dudley, en amerikansk vitenskapsmann ved Bell Laboratories/Bell Labs, Vocoder, en elektronisk taleanalysator. Dudley utvikler Vocoder til Voder, en elektronisk talesynthesizer som drives gjennom et tastatur.
Homer Dudley fra Bell Laboratories demonstrerte verdens første funksjonelle stemmesynthesizer, Voder, på verdensutstillingen i 1939 i New York City. En menneskelig operatør ble pålagt å betjene det massive orgellignende apparatets nøkler og fotpedal.
Forskere bygget på Voder i løpet av de neste tiårene. De første datamaskinbaserte talesyntesesystemene ble utviklet på slutten av 1950-tallet, og Bell Laboratories skrev historie igjen i 1961 da fysikeren John Larry Kelly Jr. holdt et IBM 704-foredrag.
Integrerte kretser gjorde kommersielle talesynteseprodukter mulig i telekommunikasjon og videospill på 1970- og 1980-tallet. Vortex-brikken, brukt i arkadespill, var en av de første integrerte talesyntesekretsene.
Texas Instruments gjorde seg bemerket i 1980 med Speak N Spell-synthesizeren, som ble brukt som et elektronisk lesehjelpemiddel for barn.
Siden begynnelsen av 1990-tallet har standard datamaskinoperativsystemer inkludert talesyntese, først og fremst for diktering og transkripsjon. I tillegg bruker TTS nå til ulike formål, og syntetiske stemmer har blitt bemerkelsesverdig nøyaktige ettersom kunstig intelligens og maskinlæring har utviklet seg.

Hvordan fungerer talesyntese?

Talesyntese fungerer i tre stadier: tekst til ord, ord til fonemer og fonemer til lyd.

1. Tekst til ord

Talesyntese begynner med forhåndsbehandling eller normalisering, noe som reduserer tvetydighet ved å velge den beste måten å lese en passasje på. Forbehandling innebærer å lese og rense teksten, slik at datamaskinen leser den mer nøyaktig. Tall, datoer, klokkeslett, forkortelser, akronymer og spesialtegn trenger oversettelse. For å bestemme den mest sannsynlige uttalen bruker de statistisk sannsynlighet eller nevrale nettverk.

Homografer – ord som har lignende uttale, men forskjellige betydninger krever håndtering ved forhåndsbehandling. En talesyntese kan heller ikke forstå «Jeg selger bilen» fordi «selg» kan uttales «celle». Ved å gjenkjenne stavemåten («Jeg har en mobiltelefon»), kan man gjette at «jeg selger bilen» er riktig. En talegjenkjenningsløsning for å transformere menneskelig stemme til tekst selv med komplekst ordforråd.

2. Ord til fonemer

Etter å ha bestemt ordene, produserer talesyntesen lyder som inneholder disse ordene. Hver datamaskin krever en betydelig alfabetisk liste over ord og informasjon om hvordan man uttaler hvert ord. De trenger en liste over fonemene som utgjør lyden til hvert ord. Fonemer er avgjørende siden det bare er 26 bokstaver i det engelske alfabetet, men over 40 fonemer.

I teorien, hvis en datamaskin har en ordbok med ord og fonemer, er alt den trenger å gjøre å lese et ord, slå det opp i ordboken og deretter lese opp de tilsvarende fonemene. Men i praksis er det mye mer komplekst enn det ser ut til.

Den alternative metoden innebærer å bryte ned skrevne ord til grafemer og generere fonemer som tilsvarer dem ved hjelp av enkle regler.

3. Fonemer til lyd

Datamaskinen har nå konvertert teksten til en liste med fonemer. Men hvordan finner du de grunnleggende fonemene datamaskinen leser høyt når den konverterer tekst til tale på forskjellige språk? Det er tre tilnærminger til dette.

For å begynne, opptak av mennesker som sier at fonemen vil bruke.
Den andre tilnærmingen er at datamaskinen genererer fonemer ved hjelp av grunnleggende lydfrekvenser.
Den endelige tilnærmingen er å etterligne den menneskelige stemmeteknikken i sanntid ved naturlig lyd med høykvalitetsalgoritmer.

Konkatenativ syntese

Talesynthesizere som bruker innspilte menneskestemmer må forhåndsinstalleres med en liten mengde menneskelig lyd som kan manipuleres. Den er også basert på menneskelig tale som er registrert.

Hva er formantsyntese?

Formanter er de 3-5 nøkkelfrekvensene (resonans) av lyd generert og kombinert av det menneskelige stemmebåndet for å produsere lyden av tale eller sang. Formant talesyntese kan si hva som helst, inkludert ikke-eksisterende og fremmedord de aldri har hørt om. Additiv syntese og fysisk modelleringssyntese brukes for å generere den syntetiserte taleutgangen.

Hva er artikulatorisk syntese?

Artikulatorisk syntese er å få datamaskiner til å snakke ved å simulere den intrikate menneskelige stemmekanalen og artikulere prosessen som skjer der. På grunn av dens kompleksitet er det den metoden de færreste forskerne har studert minst til nå.

Kort sagt, stemmesynteseprogramvare/tekst-til-tale-syntese lar brukere se skrevet tekst, høre den og lese den høyt på samme tid. Ulike programvarer bruker både datamaskingenererte og menneskelige innspilte stemmer. Talesyntese blir mer populært ettersom etterspørselen etter kundeengasjement og effektivisering av organisatoriske prosesser vokser. Det legger til rette for langsiktig lønnsomhet.