Sprachsynthesizer verändern die Arbeitsplatzkultur. Eine Sprachsynthese liest den Text vor. Text-to-Speech bedeutet, dass ein Computer ein Wort laut vorliest. Es geht darum, dass Maschinen einfach sprechen und wie Menschen unterschiedlichen Alters und Geschlechts klingen. Text-to-Speech-Engines werden mit der Zunahme digitaler Dienste und der Spracherkennung immer beliebter.

Was ist Sprachsynthese?

Die Sprachsynthese, auch bekannt als Text-to-Speech-System (TTS), ist eine computergenerierte Simulation der menschlichen Stimme. Sprachsynthesizer wandeln geschriebene Wörter in gesprochene Sprache um.

Im Laufe eines normalen Tages werden Sie wahrscheinlich auf verschiedene Arten von synthetischer Sprache stoßen. Die Sprachsynthesetechnologie, die von Apps, intelligenten Lautsprechern und kabellosen Kopfhörern unterstützt wird, macht das Leben einfacher und verbessert es:

Was ist die Geschichte der Sprachsynthese?

Wie funktioniert die Sprachsynthese?

Die Sprachsynthese erfolgt in drei Stufen: Text zu Wörtern, Wörter zu Phonemen und Phoneme zu Tönen.

1. Text zu Wörtern

Die Sprachsynthese beginnt mit einer Vorverarbeitung oder Normalisierung, die Mehrdeutigkeit reduziert, indem sie die beste Leseweise für eine Passage wählt. Bei der Vorverarbeitung wird der Text gelesen und bereinigt, damit der Computer ihn genauer lesen kann. Zahlen, Daten, Zeiten, Abkürzungen, Akronyme und Sonderzeichen müssen übersetzt werden. Um die wahrscheinlichste Aussprache zu ermitteln, verwenden sie statistische Wahrscheinlichkeiten oder neuronale Netze.

Homographen – Wörter, die eine ähnliche Aussprache, aber eine unterschiedliche Bedeutung haben – müssen vorverarbeitet werden. Ein Sprachsynthesizer kann auch nicht „Ich verkaufe das Auto“ verstehen, weil „verkaufen“ als „Zelle“ ausgesprochen werden kann. Wenn man die Schreibweise erkennt („Ich habe ein Handy“), kann man erraten, dass „Ich verkaufe das Auto“ richtig ist. Eine Spracherkennungslösung zur Umwandlung der menschlichen Stimme in Text, selbst bei komplexem Vokabular.

2. Wörter zu Phonemen

Nachdem die Wörter bestimmt wurden, erzeugt der Sprachsynthesizer Töne, die diese Wörter enthalten. Jeder Computer benötigt eine umfangreiche alphabetische Liste von Wörtern und Informationen darüber, wie die einzelnen Wörter ausgesprochen werden. Sie bräuchten eine Liste der Phoneme, aus denen sich die Laute der einzelnen Wörter zusammensetzen. Phoneme sind entscheidend, da das englische Alphabet nur 26 Buchstaben, aber über 40 Phoneme enthält.

Wenn ein Computer über ein Wörterbuch mit Wörtern und Phonemen verfügt, braucht er theoretisch nur ein Wort zu lesen, es im Wörterbuch nachzuschlagen und dann die entsprechenden Phoneme vorzulesen. In der Praxis ist es jedoch viel komplexer, als es scheint.

Bei der alternativen Methode werden geschriebene Wörter in Grapheme zerlegt und anhand einfacher Regeln die dazugehörigen Phoneme gebildet.

3. Phoneme zum Klang

Der Computer hat den Text nun in eine Liste von Phonemen umgewandelt. Aber wie findet man die grundlegenden Phoneme, die der Computer laut vorliest, wenn er Text in Sprache in verschiedenen Sprachen umwandelt? Hierfür gibt es drei Ansätze.

Konkatenative Synthese

Sprachsynthesizer, die aufgenommene menschliche Stimmen verwenden, müssen mit einer kleinen Menge an menschlichem Klang vorgeladen werden, der manipuliert werden kann. Außerdem basiert es auf der menschlichen Sprache, die aufgezeichnet wurde.

Was ist Formant-Synthese?

Formanten sind die 3 bis 5 Schlüsselfrequenzen (Resonanzfrequenzen) des Klangs, die vom menschlichen Stimmband erzeugt und kombiniert werden, um den Klang von Sprache oder Gesang zu erzeugen. Formant-Sprachsynthesizer können alles sagen, auch nicht existierende und fremde Wörter, die sie noch nie gehört haben. Additive Synthese und physikalische Modellsynthese werden zur Erzeugung der synthetisierten Sprachausgabe verwendet.

Was ist die artikulatorische Synthese?

Bei der artikulatorischen Synthese werden Computer zum Sprechen gebracht, indem sie den komplizierten menschlichen Vokaltrakt simulieren und die dort stattfindenden Prozesse artikulieren. Aufgrund ihrer Komplexität ist sie die Methode, die von den Forschern bisher am wenigsten untersucht wurde.

Kurz gesagt, die Sprachsynthese-Software bzw. die Text-to-Speech-Synthese ermöglicht es den Benutzern, geschriebenen Text zu sehen, zu hören und vorzulesen – alles zur gleichen Zeit. Verschiedene Software verwendet sowohl computergenerierte als auch von Menschen aufgenommene Stimmen. Die Sprachsynthese wird immer beliebter, da die Nachfrage nach Kundenkontakten und der Rationalisierung von Unternehmensprozessen steigt. Sie ermöglicht eine langfristige Rentabilität.