Los sintetizadores de voz están transformando la cultura del trabajo. Una síntesis de voz lee el texto. Texto a voz es cuando un ordenador lee una palabra en voz alta. Se trata de que las máquinas hablen con sencillez y suenen como personas de distintas edades y sexos. Los motores de conversión de texto a voz son cada vez más populares a medida que crecen los servicios digitales y el reconocimiento de voz.

¿Qué es la síntesis de voz?

La síntesis de voz, también conocida como sistema de texto a voz (TTS), es una simulación de la voz humana generada por ordenador. Los sintetizadores de voz convierten las palabras escritas en lenguaje hablado.

A lo largo de un día normal, es probable que se encuentre con varios tipos de habla sintética. La tecnología de síntesis de voz, ayudada por aplicaciones, altavoces inteligentes y auriculares inalámbricos, facilita la vida mejorando:

¿Cuál es la historia de la síntesis de voz?

¿Cómo funciona la síntesis de voz?

La síntesis del habla funciona en tres etapas: texto a palabras, palabras a fonemas y fonemas a sonido.

1. Texto a palabras

La síntesis de voz comienza con el preprocesamiento o normalización, que reduce la ambigüedad eligiendo la mejor forma de leer un pasaje. El preprocesamiento consiste en leer y limpiar el texto para que el ordenador lo lea con más precisión. Números, fechas, horas, abreviaturas, siglas y caracteres especiales necesitan traducción. Para determinar la pronunciación más probable, utilizan la probabilidad estadística o las redes neuronales.

Los homógrafos -palabras que tienen pronunciaciones similares pero significados diferentes- requieren un tratamiento previo. Además, un sintetizador de voz no puede entender «vendo el coche» porque «vender» puede pronunciarse «célula». Al reconocer la ortografía («tengo un móvil»), se puede adivinar que «vendo el coche» es correcto. Una solución de reconocimiento de voz para transformar la voz humana en texto, incluso con vocabulario complejo.

2. Palabras a fonemas

Una vez determinadas las palabras, el sintetizador de voz produce sonidos que contienen esas palabras. Todos los ordenadores necesitan una lista alfabética considerable de palabras e información sobre cómo pronunciar cada una de ellas. Necesitarían una lista de los fonemas que componen el sonido de cada palabra. Los fonemas son cruciales, ya que sólo hay 26 letras en el alfabeto inglés, pero más de 40 fonemas.

En teoría, si un ordenador dispone de un diccionario de palabras y fonemas, lo único que tiene que hacer es leer una palabra, buscarla en el diccionario y, a continuación, leer los fonemas correspondientes. Sin embargo, en la práctica es mucho más complejo de lo que parece.

El método alternativo consiste en descomponer las palabras escritas en grafemas y generar los fonemas que les corresponden mediante reglas sencillas.

3. Fonemas a sonido

El ordenador ha convertido el texto en una lista de fonemas. Pero, ¿cómo encontrar los fonemas básicos que el ordenador lee en voz alta cuando convierte texto a voz en distintos idiomas? Existen tres enfoques al respecto.

Síntesis concatenada

Los sintetizadores de voz que utilizan voces humanas grabadas deben precargarse con una pequeña cantidad de sonido humano que pueda manipularse. Además, se basa en el habla humana grabada.

¿Qué es la síntesis de formantes?

Los formantes son las 3-5 frecuencias clave (resonantes) del sonido generadas y combinadas por la cuerda vocal humana para producir el sonido del habla o del canto. Los sintetizadores de voz formantes pueden decir cualquier cosa, incluidas palabras inexistentes y extranjeras de las que nunca han oído hablar. La síntesis aditiva y la síntesis de modelado físico se utilizan para generar la salida de voz sintetizada.

¿Qué es la síntesis articulatoria?

La síntesis articulatoria consiste en hacer que los ordenadores hablen simulando el intrincado tracto vocal humano y articulando el proceso que tiene lugar en él. Debido a su complejidad, es el método que menos han estudiado los investigadores hasta ahora.

En resumen, el software de síntesis de voz/síntesis de texto a voz permite a los usuarios ver el texto escrito, oírlo y leerlo en voz alta, todo al mismo tiempo. Los distintos programas utilizan voces generadas por ordenador y voces grabadas por personas. La síntesis de voz es cada vez más popular a medida que crece la demanda de compromiso de los clientes y de agilización de los procesos organizativos. Facilita la rentabilidad a largo plazo.