¿Cómo funciona la síntesis de voz?

Análisis de textos y tratamiento lingüístico

Speaktor 2023-07-13

Los sintetizadores de voz están transformando la cultura del trabajo. Una síntesis de voz lee el texto. Texto a voz es cuando un ordenador lee una palabra en voz alta. Se trata de que las máquinas hablen con sencillez y suenen como personas de distintas edades y sexos. Los motores de conversión de texto a voz son cada vez más populares a medida que crecen los servicios digitales y el reconocimiento de voz .

¿Qué es la síntesis de voz?

La síntesis de voz, también conocida como sistema de texto a voz (TTS), es una simulación de la voz humana generada por ordenador. Los sintetizadores de voz convierten las palabras escritas en lenguaje hablado.

A lo largo de un día normal, es probable que se encuentre con varios tipos de habla sintética. La tecnología de síntesis de voz, ayudada por aplicaciones, altavoces inteligentes y auriculares inalámbricos, facilita la vida mejorando:

Accesibilidad: Si tienes problemas de visión o una discapacidad, puedes utilizar el sistema de texto a voz para leer el contenido del texto o un lector de pantalla para pronunciar las palabras en voz alta. Por ejemplo, el sintetizador de texto a voz de TikTok es una popular función de accesibilidad que permite a cualquiera consumir contenidos visuales de las redes sociales.
Navegación: Mientras conduces, no puedes mirar un mapa, pero puedes escuchar las instrucciones. Sea cual sea su destino, la mayoría de las aplicaciones GPS pueden proporcionarle útiles alertas de voz mientras viaja, algunas de ellas en varios idiomas.
Dispone de asistencia por voz. Los asistentes de audio inteligentes como Siri (iPhone) y Alexa (Android) son excelentes para la multitarea, ya que permiten pedir una pizza o escuchar el parte meteorológico mientras se realizan otras tareas físicas (por ejemplo, fregar los platos) gracias a su inteligibilidad. Aunque a veces cometen errores y suelen ser personajes femeninos serviles, suenan bastante realistas.

¿Cuál es la historia de la síntesis de voz?

El inventor Wolfgang von Kempelen estuvo a punto de conseguirlo con fuelles y tubos en el siglo XVIII.
En 1928, Homer W. Dudley, científico estadounidense de los Laboratorios Bell/ Bell Labs, creó el Vocoder, un analizador electrónico del habla. Dudley convierte el Vocoder en el Voder, un sintetizador de voz electrónico que se maneja a través de un teclado.
Homer Dudley, de los Laboratorios Bell, hizo una demostración del primer sintetizador de voz funcional del mundo, el Voder, en la Feria Mundial de Nueva York de 1939. Se necesitaba un operador humano para manejar las teclas y el pedal del enorme aparato similar a un órgano.
En las décadas siguientes, los investigadores desarrollaron el Voder. Los primeros sistemas de síntesis de voz por ordenador se desarrollaron a finales de los años 50, y los Laboratorios Bell volvieron a hacer historia en 1961, cuando el físico John Larry Kelly Jr. dio una charla en el IBM 704.
Los circuitos integrados hicieron posibles los productos comerciales de síntesis de voz en telecomunicaciones y videojuegos en las décadas de 1970 y 1980. El chip Vortex, utilizado en juegos arcade, fue uno de los primeros circuitos integrados de síntesis de voz.
Texas Instruments se dio a conocer en 1980 con el sintetizador Speak N Spell, que se utilizaba como ayuda electrónica a la lectura para niños.
Desde principios de la década de 1990, los sistemas operativos informáticos estándar incluyen sintetizadores de voz, principalmente para el dictado y la transcripción. Además, el TTS se utiliza ahora para diversos fines, y las voces sintéticas se han vuelto notablemente precisas a medida que han avanzado la inteligencia artificial y el aprendizaje automático.

¿Cómo funciona la síntesis de voz?

La síntesis del habla funciona en tres etapas: texto a palabras, palabras a fonemas y fonemas a sonido.

1. Texto a palabras

La síntesis de voz comienza con el preprocesamiento o normalización, que reduce la ambigüedad eligiendo la mejor forma de leer un pasaje. El preprocesamiento consiste en leer y limpiar el texto para que el ordenador lo lea con más precisión. Números, fechas, horas, abreviaturas, siglas y caracteres especiales necesitan traducción. Para determinar la pronunciación más probable, utilizan la probabilidad estadística o las redes neuronales.

Los homógrafos -palabras que tienen pronunciaciones similares pero significados diferentes- requieren un tratamiento previo. Además, un sintetizador de voz no puede entender «vendo el coche» porque «vender» puede pronunciarse «célula». Al reconocer la ortografía («tengo un móvil»), se puede adivinar que «vendo el coche» es correcto. Una solución de reconocimiento de voz para transformar la voz humana en texto, incluso con vocabulario complejo.

2. Palabras a fonemas

Una vez determinadas las palabras, el sintetizador de voz produce sonidos que contienen esas palabras. Todos los ordenadores necesitan una lista alfabética considerable de palabras e información sobre cómo pronunciar cada una de ellas. Necesitarían una lista de los fonemas que componen el sonido de cada palabra. Los fonemas son cruciales, ya que sólo hay 26 letras en el alfabeto inglés, pero más de 40 fonemas.

En teoría, si un ordenador dispone de un diccionario de palabras y fonemas, lo único que tiene que hacer es leer una palabra, buscarla en el diccionario y, a continuación, leer los fonemas correspondientes. Sin embargo, en la práctica es mucho más complejo de lo que parece.

El método alternativo consiste en descomponer las palabras escritas en grafemas y generar los fonemas que les corresponden mediante reglas sencillas.

3. Fonemas a sonido

El ordenador ha convertido el texto en una lista de fonemas. Pero, ¿cómo encontrar los fonemas básicos que el ordenador lee en voz alta cuando convierte texto a voz en distintos idiomas? Existen tres enfoques al respecto.

Para empezar, se utilizarán grabaciones de humanos diciendo los fonemas.
El segundo enfoque consiste en que el ordenador genere fonemas utilizando frecuencias sonoras fundamentales.
El último enfoque consiste en imitar la técnica de la voz humana en tiempo real mediante un sonido natural con algoritmos de alta calidad.

Síntesis concatenada

Los sintetizadores de voz que utilizan voces humanas grabadas deben precargarse con una pequeña cantidad de sonido humano que pueda manipularse. Además, se basa en el habla humana grabada.

¿Qué es la síntesis de formantes?

Los formantes son las 3-5 frecuencias clave (resonantes) del sonido generadas y combinadas por la cuerda vocal humana para producir el sonido del habla o del canto. Los sintetizadores de voz formantes pueden decir cualquier cosa, incluidas palabras inexistentes y extranjeras de las que nunca han oído hablar. La síntesis aditiva y la síntesis de modelado físico se utilizan para generar la salida de voz sintetizada.

¿Qué es la síntesis articulatoria?

La síntesis articulatoria consiste en hacer que los ordenadores hablen simulando el intrincado tracto vocal humano y articulando el proceso que tiene lugar en él. Debido a su complejidad, es el método que menos han estudiado los investigadores hasta ahora.

En resumen, el software de síntesis de voz/síntesis de texto a voz permite a los usuarios ver el texto escrito, oírlo y leerlo en voz alta, todo al mismo tiempo. Los distintos programas utilizan voces generadas por ordenador y voces grabadas por personas. La síntesis de voz es cada vez más popular a medida que crece la demanda de compromiso de los clientes y de agilización de los procesos organizativos. Facilita la rentabilidad a largo plazo.