Spraaksynthesizers veranderen de werkcultuur. Een spraaksynthese leest de tekst voor. Bij tekst-naar-spraak leest een computer een woord hardop voor. Het is de bedoeling dat machines eenvoudig praten en klinken als mensen van verschillende leeftijden en geslachten. Text-to-speech engines worden steeds populairder naarmate digitale diensten en spraakherkenning toenemen.

Wat is spraaksynthese?

Spraaksynthese, ook bekend als tekst-naar-spraak (TTS-systeem), is een door de computer gegenereerde simulatie van de menselijke stem. Spraaksynthesizers zetten geschreven woorden om in gesproken taal.

Gedurende een doorsnee dag zult u waarschijnlijk verschillende soorten synthetische spraak tegenkomen. Spraaksynthesetechnologie, geholpen door apps, slimme luidsprekers en draadloze koptelefoons, maakt het leven gemakkelijker door het te verbeteren:

Wat is de geschiedenis van spraaksynthese?

Hoe werkt spraaksynthese?

Spraaksynthese werkt in drie fasen: tekst naar woorden, woorden naar fonemen, en fonemen naar geluid.

1. Tekst naar woorden

Spraaksynthese begint met voorbewerking of normalisatie, die ambiguïteit vermindert door de beste manier te kiezen om een passage te lezen. Bij voorbewerking wordt de tekst gelezen en opgeschoond, zodat de computer de tekst nauwkeuriger kan lezen. Getallen, data, tijden, afkortingen, acroniemen en speciale tekens moeten worden vertaald. Om de meest waarschijnlijke uitspraak te bepalen gebruiken ze statistische waarschijnlijkheid of neurale netwerken.

Homografen – woorden met een vergelijkbare uitspraak maar een verschillende betekenis moeten worden verwerkt door middel van voorbewerking. Ook kan een spraaksynthesizer niet begrijpen “ik verkoop de auto” omdat “verkoop” kan worden uitgesproken als “cel”. Door de spelling te herkennen (“Ik heb een mobiele telefoon”), kan men raden dat “Ik verkoop de auto” correct is. Een spraakherkenningsoplossing om menselijke stem om te zetten in tekst, zelfs met een complexe woordenschat.

2. Woorden naar fonemen

Na het bepalen van de woorden produceert de spraaksynthesizer geluiden die deze woorden bevatten. Elke computer heeft een flinke alfabetische woordenlijst nodig en informatie over hoe elk woord moet worden uitgesproken. Ze hebben een lijst nodig van de fonemen die de klank van elk woord vormen. Fonemen zijn cruciaal, want het Engelse alfabet telt slechts 26 letters, maar meer dan 40 fonemen.

In theorie, als een computer een woordenboek van woorden en fonemen heeft, hoeft hij alleen maar een woord te lezen, het op te zoeken in het woordenboek, en dan de bijbehorende fonemen voor te lezen. In de praktijk is het echter veel ingewikkelder dan het lijkt.

De alternatieve methode houdt in dat geschreven woorden worden opgedeeld in graphemen en dat de fonemen die daarmee corresponderen worden gegenereerd aan de hand van eenvoudige regels.

3. Fonemen naar geluid

De computer heeft de tekst nu omgezet in een lijst van fonemen. Maar hoe vind je de basisfonemen die de computer hardop leest wanneer hij tekst omzet in spraak in verschillende talen? Er zijn drie benaderingen.

Concatenatieve synthese

Spraaksynthesizers die gebruik maken van opgenomen menselijke stemmen moeten vooraf worden geladen met een kleine hoeveelheid menselijk geluid dat kan worden gemanipuleerd. Ook is het gebaseerd op menselijke spraak die is opgenomen.

Wat is Formant Synthese?

Formanten zijn de 3-5 belangrijkste (resonante) geluidsfrequenties die door de menselijke stemband worden gegenereerd en gecombineerd om het geluid van spraak of zang te produceren. Formant spraak synthesizers kunnen alles zeggen, ook onbestaande en vreemde woorden waar ze nog nooit van gehoord hebben. Voor het genereren van de gesynthetiseerde spraakuitvoer wordt gebruik gemaakt van additieve synthese en fysische modellering.

Wat is Articulatory synthese?

Articulatoire synthese is computers laten spreken door het ingewikkelde menselijke spraakkanaal te simuleren en het proces dat daar plaatsvindt te articuleren. Vanwege de complexiteit ervan is het de methode die tot nu toe door de minste onderzoekers is bestudeerd.

Kortom, spraaksynthesesoftware/tekst-naar-spraaksynthese stelt gebruikers in staat geschreven tekst te zien, te horen en hardop voor te lezen, en dat allemaal tegelijk. Verschillende software maakt gebruik van zowel computergegenereerde als door mensen opgenomen stemmen. Spraaksynthese wordt steeds populairder naarmate de vraag naar klantbetrokkenheid en het stroomlijnen van organisatorische processen toeneemt. Het vergemakkelijkt de winstgevendheid op lange termijn.