Puhesyntetisaattorit muuttavat työpaikkakulttuuria. Puhesynteesi lukee tekstin. Tekstistä puheeksi -toiminnolla tarkoitetaan sitä, että tietokone lukee sanan ääneen. Tarkoituksena on saada koneet puhumaan yksinkertaisesti ja kuulostamaan eri-ikäisiltä ja eri sukupuolta olevilta ihmisiltä. Tekstistä puheeksi -moottorit ovat yhä suositumpia digitaalisten palvelujen ja puheentunnistuksen lisääntyessä.

Mitä on puhesynteesi?

Puhesynteesi, joka tunnetaan myös nimellä tekstistä puheeksi (TTS-järjestelmä), on tietokoneella tuotettu ihmisäänen simulaatio. Puhesyntetisaattorit muuttavat kirjoitetut sanat puhutuksi kieleksi.

Tavallisen päivän aikana kohtaat todennäköisesti monenlaista synteettistä puhetta. Puhesynteesiteknologia, jota tukevat sovellukset, älykaiuttimet ja langattomat kuulokkeet, helpottaa elämää parantamalla:

Mikä on puhesynteesin historia?

Miten puhesynteesi toimii?

Puhesynteesi toimii kolmessa vaiheessa: teksti sanoiksi, sanat foneemeiksi ja foneemit ääniksi.

1. Teksti sanoiksi

Puhesynteesi alkaa esikäsittelyllä tai normalisoinnilla, joka vähentää moniselitteisyyttä valitsemalla parhaan tavan lukea katkelma. Esikäsittelyssä tekstiä luetaan ja puhdistetaan, jotta tietokone voi lukea sen tarkemmin. Numerot, päivämäärät, kellonajat, lyhenteet, akronyymit ja erikoismerkit on käännettävä. Todennäköisimmän ääntämyksen määrittämiseen käytetään tilastollista todennäköisyyttä tai neuroverkkoja.

Homografiat – sanat, joilla on samanlainen ääntämys mutta eri merkitys, on käsiteltävä esikäsittelyllä. Puhesyntetisaattori ei myöskään ymmärrä sanaa ”myyn auton”, koska ”myydä” voidaan lausua ”cell”. Tunnistamalla oikeinkirjoituksen (”Minulla on kännykkä”) voi arvata, että ”Myyn auton” on oikein. Puheentunnistusratkaisu, joka muuntaa ihmisen äänen tekstiksi myös monimutkaisella sanastolla.

2. Sanat foneemeiksi

Kun sanat on määritetty, puhesyntetisaattori tuottaa ääniä, jotka sisältävät kyseiset sanat. Jokainen tietokone tarvitsee huomattavan aakkosellisen sanaluettelon ja tietoa siitä, miten kukin sana lausutaan. He tarvitsisivat luettelon foneemeista, jotka muodostavat kunkin sanan äänteen. Foneemit ovat ratkaisevan tärkeitä, sillä englannin aakkosissa on vain 26 kirjainta mutta yli 40 foneemia.

Teoriassa, jos tietokoneella on sanakirja sanoista ja äänteistä, sen tarvitsee vain lukea sana, etsiä se sanakirjasta ja lukea sitten vastaavat äänteet. Käytännössä se on kuitenkin paljon monimutkaisempi kuin miltä se näyttää.

Vaihtoehtoisessa menetelmässä kirjoitetut sanat jaetaan grafeemeiksi ja muodostetaan niitä vastaavat foneemit yksinkertaisten sääntöjen avulla.

3. Foneemit äänteeksi

Tietokone on nyt muuttanut tekstin luetteloksi foneemeista. Mutta miten löydät perusfoneemit, jotka tietokone lukee ääneen, kun se muuntaa tekstiä puheeksi eri kielillä? Tähän on kolme lähestymistapaa.

Konkatenatiivinen synteesi

Äänitettyjä ihmisääniä käyttäviin puhesyntetisaattoreihin on esiladattava pieni määrä ihmisääntä, jota voidaan manipuloida. Lisäksi se perustuu nauhoitettuun ihmisen puheeseen.

Mikä on formanttien synteesi?

Formanttitaajuudet ovat 3-5 keskeistä (resonoivaa) äänitaajuutta, joita ihmisen äänihuulet tuottavat ja yhdistävät puheen tai laulun ääneksi. Formanttipuhe-syntetisaattorit voivat sanoa mitä tahansa, myös olemattomia ja vieraita sanoja, joista he eivät ole koskaan kuulleetkaan. Syntetisoidun puhetulosteen tuottamiseen käytetään additiivista synteesiä ja fysikaalista mallinnussynteesiä.

Mikä on artikulatorinen synteesi?

Artikulaatiosynteesi tarkoittaa tietokoneiden puhumista simuloimalla ihmisen monimutkaisia ääniraitoja ja artikuloimalla niissä tapahtuvia prosesseja. Monimutkaisuutensa vuoksi se on menetelmä, jota tutkijat ovat tutkineet tähän mennessä vähiten.

Lyhyesti sanottuna, äänisynteesiohjelmisto/tekstistä puheeksi -synteesi antaa käyttäjille mahdollisuuden nähdä kirjoitetun tekstin, kuulla sen ja lukea sen ääneen samaan aikaan. Erilaisissa ohjelmistoissa käytetään sekä tietokoneella luotuja että ihmisen nauhoittamia ääniä. Puhesynteesi on yhä suositumpi, kun asiakkaiden sitouttamisen ja organisaatioprosessien virtaviivaistamisen kysyntä kasvaa. Se helpottaa pitkän aikavälin kannattavuutta.