Hoe werkt spraaksynthese?

Tekstanalyse en taalkundige verwerking
Tekstanalyse en taalkundige verwerking

Speaktor 2023-07-13

Spraaksynthesizers veranderen de werkcultuur. Een spraaksynthese leest de tekst voor. Bij tekst-naar-spraak leest een computer een woord hardop voor. Het is de bedoeling dat machines eenvoudig praten en klinken als mensen van verschillende leeftijden en geslachten. Text-to-speech engines worden steeds populairder naarmate digitale diensten en spraakherkenning toenemen.

Wat is spraaksynthese?

Spraaksynthese, ook bekend als tekst-naar-spraak (TTS-systeem), is een door de computer gegenereerde simulatie van de menselijke stem. Spraaksynthesizers zetten geschreven woorden om in gesproken taal.

Gedurende een doorsnee dag zult u waarschijnlijk verschillende soorten synthetische spraak tegenkomen. Spraaksynthesetechnologie, geholpen door apps, slimme luidsprekers en draadloze koptelefoons, maakt het leven gemakkelijker door het te verbeteren:

  • Toegankelijkheid: Als u slechtziend of gehandicapt bent, kunt u een tekst-naar-spraaksysteem gebruiken om tekstinhoud te lezen of een schermlezer om woorden hardop uit te spreken. De Text-to-Speech synthesizer op TikTok is bijvoorbeeld een populaire toegankelijkheidsfunctie waarmee iedereen visuele sociale media-inhoud kan consumeren.
  • Navigatie: Tijdens het rijden kunt u niet op een kaart kijken, maar wel naar instructies luisteren. Wat uw bestemming ook is, de meeste GPS-apps kunnen u onderweg nuttige gesproken waarschuwingen geven, sommige in meerdere talen.
  • Spraakassistentie is beschikbaar. Intelligente audio-assistenten zoals Siri (iPhone) en Alexa (Android) zijn uitstekend geschikt voor multitasking: dankzij hun verstaanbaarheid kunt u pizza bestellen of naar het weerbericht luisteren terwijl u andere fysieke taken uitvoert (bv. de afwas doen). Hoewel deze assistenten af en toe fouten maken en vaak zijn ontworpen als onderdanige vrouwelijke personages, klinken ze behoorlijk levensecht.

Wat is de geschiedenis van spraaksynthese?

  • Uitvinder Wolfgang von Kempelen was er bijna met blaasbalgen en buizen in de 18e eeuw.
  • In 1928 creëerde Homer W. Dudley, een Amerikaanse wetenschapper bij Bell Laboratories/ Bell Labs, de Vocoder, een elektronische spraakanalysator. Dudley ontwikkelt de Vocoder tot de Voder, een elektronische spraaksynthesizer die via een toetsenbord wordt bediend.
  • Homer Dudley van Bell Laboratories demonstreerde ’s werelds eerste functionele stemsynthesizer, de Voder, op de Wereldtentoonstelling van 1939 in New York City. Een menselijke operator was nodig om de toetsen en het voetpedaal van het massieve orgelachtige apparaat te bedienen.
  • Onderzoekers bouwden in de volgende decennia voort op de Voder. De eerste computersystemen voor spraaksynthese werden eind jaren vijftig ontwikkeld, en Bell Laboratories schreef opnieuw geschiedenis in 1961 toen de natuurkundige John Larry Kelly Jr. een IBM 704 sprak.
  • Geïntegreerde schakelingen maakten commerciële spraaksyntheseproducten mogelijk in de telecommunicatie en videospelletjes in de jaren zeventig en tachtig. De Vortex chip, gebruikt in arcadespelletjes, was een van de eerste geïntegreerde circuits voor spraaksynthese.
  • Texas Instruments maakte in 1980 naam met de Speak N Spell synthesizer, die werd gebruikt als elektronisch leeshulpmiddel voor kinderen.
  • Sinds het begin van de jaren negentig bevatten standaard computerbesturingssystemen spraaksynthesizers, voornamelijk voor dicteren en transcriptie. Bovendien wordt TTS nu voor verschillende doeleinden gebruikt, en zijn synthetische stemmen opmerkelijk nauwkeurig geworden naarmate de kunstmatige intelligentie en het machinaal leren zijn gevorderd.

Hoe werkt spraaksynthese?

Spraaksynthese werkt in drie fasen: tekst naar woorden, woorden naar fonemen, en fonemen naar geluid.

1. Tekst naar woorden

Spraaksynthese begint met voorbewerking of normalisatie, die ambiguïteit vermindert door de beste manier te kiezen om een passage te lezen. Bij voorbewerking wordt de tekst gelezen en opgeschoond, zodat de computer de tekst nauwkeuriger kan lezen. Getallen, data, tijden, afkortingen, acroniemen en speciale tekens moeten worden vertaald. Om de meest waarschijnlijke uitspraak te bepalen gebruiken ze statistische waarschijnlijkheid of neurale netwerken.

Homografen – woorden met een vergelijkbare uitspraak maar een verschillende betekenis moeten worden verwerkt door middel van voorbewerking. Ook kan een spraaksynthesizer niet begrijpen “ik verkoop de auto” omdat “verkoop” kan worden uitgesproken als “cel”. Door de spelling te herkennen (“Ik heb een mobiele telefoon”), kan men raden dat “Ik verkoop de auto” correct is. Een spraakherkenningsoplossing om menselijke stem om te zetten in tekst, zelfs met een complexe woordenschat.

2. Woorden naar fonemen

Na het bepalen van de woorden produceert de spraaksynthesizer geluiden die deze woorden bevatten. Elke computer heeft een flinke alfabetische woordenlijst nodig en informatie over hoe elk woord moet worden uitgesproken. Ze hebben een lijst nodig van de fonemen die de klank van elk woord vormen. Fonemen zijn cruciaal, want het Engelse alfabet telt slechts 26 letters, maar meer dan 40 fonemen.

In theorie, als een computer een woordenboek van woorden en fonemen heeft, hoeft hij alleen maar een woord te lezen, het op te zoeken in het woordenboek, en dan de bijbehorende fonemen voor te lezen. In de praktijk is het echter veel ingewikkelder dan het lijkt.

De alternatieve methode houdt in dat geschreven woorden worden opgedeeld in graphemen en dat de fonemen die daarmee corresponderen worden gegenereerd aan de hand van eenvoudige regels.

3. Fonemen naar geluid

De computer heeft de tekst nu omgezet in een lijst van fonemen. Maar hoe vind je de basisfonemen die de computer hardop leest wanneer hij tekst omzet in spraak in verschillende talen? Er zijn drie benaderingen.

  • Om te beginnen zullen opnames van mensen die de fonemen zeggen worden gebruikt.
  • De tweede benadering is dat de computer fonemen genereert met behulp van fundamentele geluidsfrequenties.
  • De laatste benadering is het nabootsen van de menselijke stemtechniek in real-time door natuurlijk klinkende algoritmen van hoge kwaliteit.

Concatenatieve synthese

Spraaksynthesizers die gebruik maken van opgenomen menselijke stemmen moeten vooraf worden geladen met een kleine hoeveelheid menselijk geluid dat kan worden gemanipuleerd. Ook is het gebaseerd op menselijke spraak die is opgenomen.

Wat is Formant Synthese?

Formanten zijn de 3-5 belangrijkste (resonante) geluidsfrequenties die door de menselijke stemband worden gegenereerd en gecombineerd om het geluid van spraak of zang te produceren. Formant spraak synthesizers kunnen alles zeggen, ook onbestaande en vreemde woorden waar ze nog nooit van gehoord hebben. Voor het genereren van de gesynthetiseerde spraakuitvoer wordt gebruik gemaakt van additieve synthese en fysische modellering.

Wat is Articulatory synthese?

Articulatoire synthese is computers laten spreken door het ingewikkelde menselijke spraakkanaal te simuleren en het proces dat daar plaatsvindt te articuleren. Vanwege de complexiteit ervan is het de methode die tot nu toe door de minste onderzoekers is bestudeerd.

Kortom, spraaksynthesesoftware/tekst-naar-spraaksynthese stelt gebruikers in staat geschreven tekst te zien, te horen en hardop voor te lezen, en dat allemaal tegelijk. Verschillende software maakt gebruik van zowel computergegenereerde als door mensen opgenomen stemmen. Spraaksynthese wordt steeds populairder naarmate de vraag naar klantbetrokkenheid en het stroomlijnen van organisatorische processen toeneemt. Het vergemakkelijkt de winstgevendheid op lange termijn.

Post delen

Tekst-naar-spraak

img

Speaktor

Zet uw tekst om in spraak en lees hardop voor