Miten puhesynteesi toimii?

Tekstianalyysi ja kielellinen käsittely
Tekstianalyysi ja kielellinen käsittely

Speaktor 2023-07-13

Puhesyntetisaattorit muuttavat työpaikkakulttuuria. Puhesynteesi lukee tekstin. Tekstistä puheeksi -toiminnolla tarkoitetaan sitä, että tietokone lukee sanan ääneen. Tarkoituksena on saada koneet puhumaan yksinkertaisesti ja kuulostamaan eri-ikäisiltä ja eri sukupuolta olevilta ihmisiltä. Tekstistä puheeksi -moottorit ovat yhä suositumpia digitaalisten palvelujen ja puheentunnistuksen lisääntyessä.

Mitä on puhesynteesi?

Puhesynteesi, joka tunnetaan myös nimellä tekstistä puheeksi (TTS-järjestelmä), on tietokoneella tuotettu ihmisäänen simulaatio. Puhesyntetisaattorit muuttavat kirjoitetut sanat puhutuksi kieleksi.

Tavallisen päivän aikana kohtaat todennäköisesti monenlaista synteettistä puhetta. Puhesynteesiteknologia, jota tukevat sovellukset, älykaiuttimet ja langattomat kuulokkeet, helpottaa elämää parantamalla:

  • Saavutettavuus: Jos olet näkövammainen tai vammainen, voit käyttää tekstiä puheeksi -järjestelmää tekstisisällön lukemiseen tai ruudunlukuohjelmaa sanojen ääneen puhumiseen. Esimerkiksi TikTokin tekstistä puheeksi -syntetisaattori on suosittu saavutettavuusominaisuus, jonka avulla kuka tahansa voi käyttää visuaalista sosiaalisen median sisältöä.
  • Navigointi: Ajon aikana et voi katsoa karttaa, mutta voit kuunnella ohjeita. Olipa määränpääsi mikä tahansa, useimmat GPS-sovellukset voivat antaa hyödyllisiä äänihälytyksiä matkan aikana, ja osa niistä on monikielisiä.
  • Puheapu on käytettävissä. Älykkäät ääniavustajat, kuten Siri (iPhone) ja Alexa (Android), soveltuvat erinomaisesti monitehtäväiseen työskentelyyn, sillä niiden ymmärrettävyyden ansiosta voit tilata pizzan tai kuunnella säätiedotuksen samalla kun teet muita fyysisiä tehtäviä (esim. tiskaat tiskit). Vaikka nämä avustajat tekevät toisinaan virheitä ja heidät on usein suunniteltu alisteisiksi naishahmoiksi, he kuulostavat melko aidoilta.

Mikä on puhesynteesin historia?

  • Keksijä Wolfgang von Kempelen oli jo 1700-luvulla melkein onnistunut puhaltimien ja putkien avulla.
  • Vuonna 1928 yhdysvaltalainen tiedemies Homer W. Dudley, joka työskenteli Bell Laboratoriesissa/Bell Labsissa, kehitti elektronisen puheanalysaattorin, Vocoderin. Dudley kehittää Vocoderista Voderin, elektronisen puhesyntetisaattorin, jota käytetään näppäimistön avulla.
  • Homer Dudley Bell Laboratoriesista esitteli maailman ensimmäisen toimivan äänisyntetisaattorin, Voderin, vuoden 1939 maailmannäyttelyssä New Yorkissa. Massiivisen urkumaisen laitteen näppäimiä ja jalkapolkimia piti käyttää ihmisen toimesta.
  • Tutkijat kehittivät Voderia seuraavien vuosikymmenten aikana. Ensimmäiset tietokonepohjaiset puhesynteesijärjestelmät kehitettiin 1950-luvun lopulla, ja Bell Laboratories teki jälleen historiaa vuonna 1961, kun fyysikko John Larry Kelly Jr. piti IBM 704 -puhelimen.
  • Integroidut piirit mahdollistivat kaupalliset puhesynteesituotteet televiestinnässä ja videopeleissä 1970- ja 1980-luvuilla. Vortex-siru, jota käytettiin pelihallipeleissä, oli yksi ensimmäisistä puhesynteesiä tekevistä integroiduista piireistä.
  • Texas Instruments tuli tunnetuksi vuonna 1980 Speak N Spell -syntetisaattorilla, jota käytettiin lasten elektronisena lukuapuna.
  • 1990-luvun alkupuolelta lähtien tietokoneiden vakio-käyttöjärjestelmät ovat sisältäneet puhesyntetisaattoreita, jotka on tarkoitettu pääasiassa saneluun ja puhtaaksikirjoitukseen. Lisäksi TTS:ää käytetään nykyään erilaisiin tarkoituksiin, ja synteettisistä äänistä on tullut huomattavan tarkkoja tekoälyn ja koneoppimisen kehittyessä.

Miten puhesynteesi toimii?

Puhesynteesi toimii kolmessa vaiheessa: teksti sanoiksi, sanat foneemeiksi ja foneemit ääniksi.

1. Teksti sanoiksi

Puhesynteesi alkaa esikäsittelyllä tai normalisoinnilla, joka vähentää moniselitteisyyttä valitsemalla parhaan tavan lukea katkelma. Esikäsittelyssä tekstiä luetaan ja puhdistetaan, jotta tietokone voi lukea sen tarkemmin. Numerot, päivämäärät, kellonajat, lyhenteet, akronyymit ja erikoismerkit on käännettävä. Todennäköisimmän ääntämyksen määrittämiseen käytetään tilastollista todennäköisyyttä tai neuroverkkoja.

Homografiat – sanat, joilla on samanlainen ääntämys mutta eri merkitys, on käsiteltävä esikäsittelyllä. Puhesyntetisaattori ei myöskään ymmärrä sanaa ”myyn auton”, koska ”myydä” voidaan lausua ”cell”. Tunnistamalla oikeinkirjoituksen (”Minulla on kännykkä”) voi arvata, että ”Myyn auton” on oikein. Puheentunnistusratkaisu, joka muuntaa ihmisen äänen tekstiksi myös monimutkaisella sanastolla.

2. Sanat foneemeiksi

Kun sanat on määritetty, puhesyntetisaattori tuottaa ääniä, jotka sisältävät kyseiset sanat. Jokainen tietokone tarvitsee huomattavan aakkosellisen sanaluettelon ja tietoa siitä, miten kukin sana lausutaan. He tarvitsisivat luettelon foneemeista, jotka muodostavat kunkin sanan äänteen. Foneemit ovat ratkaisevan tärkeitä, sillä englannin aakkosissa on vain 26 kirjainta mutta yli 40 foneemia.

Teoriassa, jos tietokoneella on sanakirja sanoista ja äänteistä, sen tarvitsee vain lukea sana, etsiä se sanakirjasta ja lukea sitten vastaavat äänteet. Käytännössä se on kuitenkin paljon monimutkaisempi kuin miltä se näyttää.

Vaihtoehtoisessa menetelmässä kirjoitetut sanat jaetaan grafeemeiksi ja muodostetaan niitä vastaavat foneemit yksinkertaisten sääntöjen avulla.

3. Foneemit äänteeksi

Tietokone on nyt muuttanut tekstin luetteloksi foneemeista. Mutta miten löydät perusfoneemit, jotka tietokone lukee ääneen, kun se muuntaa tekstiä puheeksi eri kielillä? Tähän on kolme lähestymistapaa.

  • Aluksi käytetään äänitteitä, joissa ihmiset sanovat foneemeja.
  • Toisen lähestymistavan mukaan tietokone tuottaa foneemeja perusäänitaajuuksien avulla.
  • Viimeinen lähestymistapa on jäljitellä ihmisen äänitekniikkaa reaaliaikaisesti luonnollisella äänellä korkealaatuisten algoritmien avulla.

Konkatenatiivinen synteesi

Äänitettyjä ihmisääniä käyttäviin puhesyntetisaattoreihin on esiladattava pieni määrä ihmisääntä, jota voidaan manipuloida. Lisäksi se perustuu nauhoitettuun ihmisen puheeseen.

Mikä on formanttien synteesi?

Formanttitaajuudet ovat 3-5 keskeistä (resonoivaa) äänitaajuutta, joita ihmisen äänihuulet tuottavat ja yhdistävät puheen tai laulun ääneksi. Formanttipuhe-syntetisaattorit voivat sanoa mitä tahansa, myös olemattomia ja vieraita sanoja, joista he eivät ole koskaan kuulleetkaan. Syntetisoidun puhetulosteen tuottamiseen käytetään additiivista synteesiä ja fysikaalista mallinnussynteesiä.

Mikä on artikulatorinen synteesi?

Artikulaatiosynteesi tarkoittaa tietokoneiden puhumista simuloimalla ihmisen monimutkaisia ääniraitoja ja artikuloimalla niissä tapahtuvia prosesseja. Monimutkaisuutensa vuoksi se on menetelmä, jota tutkijat ovat tutkineet tähän mennessä vähiten.

Lyhyesti sanottuna, äänisynteesiohjelmisto/tekstistä puheeksi -synteesi antaa käyttäjille mahdollisuuden nähdä kirjoitetun tekstin, kuulla sen ja lukea sen ääneen samaan aikaan. Erilaisissa ohjelmistoissa käytetään sekä tietokoneella luotuja että ihmisen nauhoittamia ääniä. Puhesynteesi on yhä suositumpi, kun asiakkaiden sitouttamisen ja organisaatioprosessien virtaviivaistamisen kysyntä kasvaa. Se helpottaa pitkän aikavälin kannattavuutta.

Jaa viesti

Teksti puheeksi

img

Speaktor

Muunna teksti ääneksi ja lue ääneen