Talesyntese transformerer kulturen på arbeidsplassen. En talesyntese leser teksten. Tekst-til-tale er når en datamaskin leser et ord høyt. Det er å få maskiner til å snakke enkelt og høres ut som mennesker i forskjellige aldre og kjønn. Tekst-til-tale-motorer blir mer populære etter hvert som digitale tjenester og stemmegjenkjenning vokser.

Hva er talesyntese?

Talesyntese, også kjent som tekst-til-tale (TTS-system), er en datamaskingenerert simulering av den menneskelige stemmen. Talesyntese konverterer skrevne ord til talespråk.

Gjennom en vanlig dag vil du sannsynligvis møte ulike typer syntetisk tale. Talesynteseteknologi, hjulpet av apper, smarthøyttalere og trådløse hodetelefoner, gjør livet enklere ved å forbedre:

Hva er historien til talesyntese?

Hvordan fungerer talesyntese?

Talesyntese fungerer i tre stadier: tekst til ord, ord til fonemer og fonemer til lyd.

1. Tekst til ord

Talesyntese begynner med forhåndsbehandling eller normalisering, noe som reduserer tvetydighet ved å velge den beste måten å lese en passasje på. Forbehandling innebærer å lese og rense teksten, slik at datamaskinen leser den mer nøyaktig. Tall, datoer, klokkeslett, forkortelser, akronymer og spesialtegn trenger oversettelse. For å bestemme den mest sannsynlige uttalen bruker de statistisk sannsynlighet eller nevrale nettverk.

Homografer – ord som har lignende uttale, men forskjellige betydninger krever håndtering ved forhåndsbehandling. En talesyntese kan heller ikke forstå «Jeg selger bilen» fordi «selg» kan uttales «celle». Ved å gjenkjenne stavemåten («Jeg har en mobiltelefon»), kan man gjette at «jeg selger bilen» er riktig. En talegjenkjenningsløsning for å transformere menneskelig stemme til tekst selv med komplekst ordforråd.

2. Ord til fonemer

Etter å ha bestemt ordene, produserer talesyntesen lyder som inneholder disse ordene. Hver datamaskin krever en betydelig alfabetisk liste over ord og informasjon om hvordan man uttaler hvert ord. De trenger en liste over fonemene som utgjør lyden til hvert ord. Fonemer er avgjørende siden det bare er 26 bokstaver i det engelske alfabetet, men over 40 fonemer.

I teorien, hvis en datamaskin har en ordbok med ord og fonemer, er alt den trenger å gjøre å lese et ord, slå det opp i ordboken og deretter lese opp de tilsvarende fonemene. Men i praksis er det mye mer komplekst enn det ser ut til.

Den alternative metoden innebærer å bryte ned skrevne ord til grafemer og generere fonemer som tilsvarer dem ved hjelp av enkle regler.

3. Fonemer til lyd

Datamaskinen har nå konvertert teksten til en liste med fonemer. Men hvordan finner du de grunnleggende fonemene datamaskinen leser høyt når den konverterer tekst til tale på forskjellige språk? Det er tre tilnærminger til dette.

Konkatenativ syntese

Talesynthesizere som bruker innspilte menneskestemmer må forhåndsinstalleres med en liten mengde menneskelig lyd som kan manipuleres. Den er også basert på menneskelig tale som er registrert.

Hva er formantsyntese?

Formanter er de 3-5 nøkkelfrekvensene (resonans) av lyd generert og kombinert av det menneskelige stemmebåndet for å produsere lyden av tale eller sang. Formant talesyntese kan si hva som helst, inkludert ikke-eksisterende og fremmedord de aldri har hørt om. Additiv syntese og fysisk modelleringssyntese brukes for å generere den syntetiserte taleutgangen.

Hva er artikulatorisk syntese?

Artikulatorisk syntese er å få datamaskiner til å snakke ved å simulere den intrikate menneskelige stemmekanalen og artikulere prosessen som skjer der. På grunn av dens kompleksitet er det den metoden de færreste forskerne har studert minst til nå.

Kort sagt, stemmesynteseprogramvare/tekst-til-tale-syntese lar brukere se skrevet tekst, høre den og lese den høyt på samme tid. Ulike programvarer bruker både datamaskingenererte og menneskelige innspilte stemmer. Talesyntese blir mer populært ettersom etterspørselen etter kundeengasjement og effektivisering av organisatoriske prosesser vokser. Det legger til rette for langsiktig lønnsomhet.