Os sintetizadores de fala estão a transformar a cultura do local de trabalho. Uma síntese da fala lê o texto. Texto-para-fala é quando um computador lê uma palavra em voz alta. É ter máquinas a falar de uma forma simples e que soem como pessoas de diferentes idades e sexos. Os motores de texto-para-fala estão a tornar-se mais populares à medida que os serviços digitais, e o reconhecimento de voz cresce.

O que é a síntese da fala?

A síntese da fala, também conhecida como text-to-speech (sistema TTS), é uma simulação gerada por computador da voz humana. Os sintetizadores da fala convertem palavras escritas em língua falada.

Ao longo de um dia típico, é provável que encontre vários tipos de discurso sintético. A tecnologia de síntese de voz, auxiliada por aplicações, altifalantes inteligentes e auscultadores sem fios, torna a vida mais fácil ao melhorar:

Qual é a história da síntese da fala?

Como funciona a Síntese da Fala?

A síntese da fala funciona em três fases: texto às palavras, palavras aos fonemas, e fonemas ao som.

1. Texto às palavras

A síntese da fala começa com o pré-processamento ou a normalização, o que reduz a ambiguidade ao escolher a melhor maneira de ler uma passagem. O pré-processamento envolve a leitura e limpeza do texto, para que o computador o leia com mais precisão. Números, datas, horas, abreviaturas, acrónimos, e caracteres especiais precisam de tradução. Para determinar a pronúncia mais provável, utilizam a probabilidade estatística ou redes neurais.

Homógrafos – palavras que têm pronúncias semelhantes mas significados diferentes requerem manuseamento por pré-processamento. Além disso, um sintetizador de fala não consegue entender “Vendo o carro” porque “vender” pode ser pronunciado “célula”. Ao reconhecer a ortografia (“Eu tenho um telemóvel”), pode-se adivinhar que “Eu vendo o carro” está correcto. Uma solução de reconhecimento de voz para transformar a voz humana em texto, mesmo com vocabulário complexo.

2. Palavras para os fonemas

Depois de determinar as palavras, o sintetizador de fala produz sons que contêm essas palavras. Cada computador requer uma grande lista alfabética de palavras e informação sobre como pronunciar cada palavra. Precisariam de uma lista dos fonemas que compõem o som de cada palavra. Os fonemas são cruciais uma vez que existem apenas 26 letras no alfabeto inglês, mas mais de 40 fonemas.

Em teoria, se um computador tem um dicionário de palavras e fonemas, basta ler uma palavra, procurá-la no dicionário, e depois ler os fonemas correspondentes. No entanto, na prática, é muito mais complexo do que parece.

O método alternativo envolve dividir as palavras escritas em grafemas e gerar fonemas que lhes correspondam usando regras simples.

3. Fonemas a tocar

O computador converteu agora o texto numa lista de fonemas. Mas como se encontram os fonemas básicos que o computador lê em voz alta quando converte texto para fala em diferentes línguas? Há três abordagens a esta questão.

Síntese concatenada

Os sintetizadores de fala que utilizam vozes humanas gravadas devem ser pré-carregados com uma pequena quantidade de som humano que possa ser manipulada. Além disso, baseia-se no discurso humano que foi registado.

O que é a Síntese de Formant?

Os formantes são as frequências de 3-5 teclas (ressonantes) do som gerado e combinado pela corda vocal humana para produzir o som da fala ou do canto. Os formadores de sintetizadores de fala podem dizer qualquer coisa, incluindo palavras inexistentes e estrangeiras de que nunca ouviram falar. A síntese aditiva e a síntese de modelação física estão a ser utilizadas para gerar a produção da fala sintetizada.

O que é síntese Articulatória?

A síntese articulatória está a fazer falar os computadores simulando o intrincado tracto vocal humano e articulando o processo que aí ocorre. Devido à sua complexidade, é o método que os menos investigadores estudaram menos até agora.

Em suma, o software de síntese de voz/síntese texto-fala permite aos utilizadores ver texto escrito, ouvi-lo e lê-lo em voz alta, tudo ao mesmo tempo. Software diferente faz uso tanto de vozes geradas por computador como de vozes gravadas por humanos. A síntese da fala está a tornar-se mais popular à medida que a procura de envolvimento do cliente e a racionalização do processo organizacional cresce. Facilita a rentabilidade a longo prazo.