Wie funktioniert die Sprachsynthese?

Textanalyse und sprachliche Verarbeitung

Speaktor 2023-07-13

Sprachsynthesizer verändern die Arbeitsplatzkultur. Eine Sprachsynthese liest den Text vor. Text-to-Speech bedeutet, dass ein Computer ein Wort laut vorliest. Es geht darum, dass Maschinen einfach sprechen und wie Menschen unterschiedlichen Alters und Geschlechts klingen. Text-to-Speech-Engines werden mit der Zunahme digitaler Dienste und der Spracherkennung immer beliebter.

Was ist Sprachsynthese?

Die Sprachsynthese, auch bekannt als Text-to-Speech-System (TTS), ist eine computergenerierte Simulation der menschlichen Stimme. Sprachsynthesizer wandeln geschriebene Wörter in gesprochene Sprache um.

Im Laufe eines normalen Tages werden Sie wahrscheinlich auf verschiedene Arten von synthetischer Sprache stoßen. Die Sprachsynthesetechnologie, die von Apps, intelligenten Lautsprechern und kabellosen Kopfhörern unterstützt wird, macht das Leben einfacher und verbessert es:

Zugänglichkeit: Wenn Sie sehbehindert sind oder eine Behinderung haben, können Sie ein Text-to-Speech-System verwenden, um Textinhalte zu lesen, oder ein Bildschirmlesegerät, um Wörter laut vorzulesen. So ist beispielsweise der Text-to-Speech-Synthesizer auf TikTok eine beliebte Funktion, die es jedem ermöglicht, visuelle soziale Medieninhalte zu konsumieren.
Navigation: Während der Fahrt können Sie nicht auf eine Karte schauen, aber Sie können den Anweisungen zuhören. Unabhängig von Ihrem Reiseziel können die meisten GPS-Apps während der Fahrt hilfreiche Sprachwarnungen liefern, einige davon in mehreren Sprachen.
Sprachunterstützung ist verfügbar. Intelligente Audio-Assistenten wie Siri (iPhone) und Alexa (Android) eignen sich hervorragend für Multitasking. Dank ihrer Sprachverständlichkeit können Sie eine Pizza bestellen oder den Wetterbericht hören, während Sie andere körperliche Aufgaben (z. B. den Abwasch) erledigen. Obwohl diese Assistenten gelegentlich Fehler machen und häufig als unterwürfige weibliche Charaktere gestaltet sind, klingen sie ziemlich lebensecht.

Was ist die Geschichte der Sprachsynthese?

Der Erfinder Wolfgang von Kempelen hätte es im 18. Jahrhundert mit Blasebalg und Röhren fast geschafft.
1928 entwickelte Homer W. Dudley, ein amerikanischer Wissenschaftler bei Bell Laboratories/Bell Labs, den Vocoder, einen elektronischen Sprachanalysator. Dudley entwickelt den Vocoder zum Voder, einem elektronischen Sprachsynthesizer, der über eine Tastatur bedient wird.
Homer Dudley von den Bell Laboratories führte auf der Weltausstellung 1939 in New York City den weltweit ersten funktionierenden Sprachsynthesizer, den Voder, vor. Für die Bedienung der Tasten und des Fußpedals des massiven, orgelähnlichen Geräts war ein menschlicher Bediener erforderlich.
In den folgenden Jahrzehnten bauten die Forscher den Voder weiter aus. Die ersten computergestützten Sprachsynthesesysteme wurden in den späten 1950er Jahren entwickelt, und die Bell Laboratories schrieben 1961 erneut Geschichte, als der Physiker John Larry Kelly Jr. einen IBM 704-Vortrag hielt.
Integrierte Schaltungen ermöglichten in den 1970er und 1980er Jahren kommerzielle Sprachsyntheseprodukte in der Telekommunikation und bei Videospielen. Der Vortex-Chip, der in Arcade-Spielen verwendet wurde, war einer der ersten integrierten Schaltkreise für die Sprachsynthese.
Texas Instruments machte sich 1980 mit dem Synthesizer Speak N Spell einen Namen, der als elektronische Lesehilfe für Kinder eingesetzt wurde.
Seit Anfang der 1990er Jahre gehören Sprachsynthesizer zur Standardausstattung von Computerbetriebssystemen, vor allem für das Diktieren und Abschreiben. Darüber hinaus wird TTS heute für verschiedene Zwecke eingesetzt, und synthetische Stimmen sind mit den Fortschritten der künstlichen Intelligenz und des maschinellen Lernens bemerkenswert genau geworden.

Wie funktioniert die Sprachsynthese?

Die Sprachsynthese erfolgt in drei Stufen: Text zu Wörtern, Wörter zu Phonemen und Phoneme zu Tönen.

1. Text zu Wörtern

Die Sprachsynthese beginnt mit einer Vorverarbeitung oder Normalisierung, die Mehrdeutigkeit reduziert, indem sie die beste Leseweise für eine Passage wählt. Bei der Vorverarbeitung wird der Text gelesen und bereinigt, damit der Computer ihn genauer lesen kann. Zahlen, Daten, Zeiten, Abkürzungen, Akronyme und Sonderzeichen müssen übersetzt werden. Um die wahrscheinlichste Aussprache zu ermitteln, verwenden sie statistische Wahrscheinlichkeiten oder neuronale Netze.

Homographen – Wörter, die eine ähnliche Aussprache, aber eine unterschiedliche Bedeutung haben – müssen vorverarbeitet werden. Ein Sprachsynthesizer kann auch nicht „Ich verkaufe das Auto“ verstehen, weil „verkaufen“ als „Zelle“ ausgesprochen werden kann. Wenn man die Schreibweise erkennt („Ich habe ein Handy“), kann man erraten, dass „Ich verkaufe das Auto“ richtig ist. Eine Spracherkennungslösung zur Umwandlung der menschlichen Stimme in Text, selbst bei komplexem Vokabular.

2. Wörter zu Phonemen

Nachdem die Wörter bestimmt wurden, erzeugt der Sprachsynthesizer Töne, die diese Wörter enthalten. Jeder Computer benötigt eine umfangreiche alphabetische Liste von Wörtern und Informationen darüber, wie die einzelnen Wörter ausgesprochen werden. Sie bräuchten eine Liste der Phoneme, aus denen sich die Laute der einzelnen Wörter zusammensetzen. Phoneme sind entscheidend, da das englische Alphabet nur 26 Buchstaben, aber über 40 Phoneme enthält.

Wenn ein Computer über ein Wörterbuch mit Wörtern und Phonemen verfügt, braucht er theoretisch nur ein Wort zu lesen, es im Wörterbuch nachzuschlagen und dann die entsprechenden Phoneme vorzulesen. In der Praxis ist es jedoch viel komplexer, als es scheint.

Bei der alternativen Methode werden geschriebene Wörter in Grapheme zerlegt und anhand einfacher Regeln die dazugehörigen Phoneme gebildet.

3. Phoneme zum Klang

Der Computer hat den Text nun in eine Liste von Phonemen umgewandelt. Aber wie findet man die grundlegenden Phoneme, die der Computer laut vorliest, wenn er Text in Sprache in verschiedenen Sprachen umwandelt? Hierfür gibt es drei Ansätze.

Zu Beginn werden Aufnahmen von Menschen verwendet, die die Phoneme sprechen.
Der zweite Ansatz besteht darin, dass der Computer Phoneme anhand von Grundtonfrequenzen erzeugt.
Der letzte Ansatz ist die Nachahmung der menschlichen Stimme in Echtzeit durch natürlich klingende Algorithmen.

Konkatenative Synthese

Sprachsynthesizer, die aufgenommene menschliche Stimmen verwenden, müssen mit einer kleinen Menge an menschlichem Klang vorgeladen werden, der manipuliert werden kann. Außerdem basiert es auf der menschlichen Sprache, die aufgezeichnet wurde.

Was ist Formant-Synthese?

Formanten sind die 3 bis 5 Schlüsselfrequenzen (Resonanzfrequenzen) des Klangs, die vom menschlichen Stimmband erzeugt und kombiniert werden, um den Klang von Sprache oder Gesang zu erzeugen. Formant-Sprachsynthesizer können alles sagen, auch nicht existierende und fremde Wörter, die sie noch nie gehört haben. Additive Synthese und physikalische Modellsynthese werden zur Erzeugung der synthetisierten Sprachausgabe verwendet.

Was ist die artikulatorische Synthese?

Bei der artikulatorischen Synthese werden Computer zum Sprechen gebracht, indem sie den komplizierten menschlichen Vokaltrakt simulieren und die dort stattfindenden Prozesse artikulieren. Aufgrund ihrer Komplexität ist sie die Methode, die von den Forschern bisher am wenigsten untersucht wurde.

Kurz gesagt, die Sprachsynthese-Software bzw. die Text-to-Speech-Synthese ermöglicht es den Benutzern, geschriebenen Text zu sehen, zu hören und vorzulesen – alles zur gleichen Zeit. Verschiedene Software verwendet sowohl computergenerierte als auch von Menschen aufgenommene Stimmen. Die Sprachsynthese wird immer beliebter, da die Nachfrage nach Kundenkontakten und der Rationalisierung von Unternehmensprozessen steigt. Sie ermöglicht eine langfristige Rentabilität.