Como funciona a Síntese da Fala?

Análise de texto e processamento linguístico

Speaktor 2023-07-13

Os sintetizadores de fala estão a transformar a cultura do local de trabalho. Uma síntese da fala lê o texto. Texto-para-fala é quando um computador lê uma palavra em voz alta. É ter máquinas a falar de uma forma simples e que soem como pessoas de diferentes idades e sexos. Os motores de texto-para-fala estão a tornar-se mais populares à medida que os serviços digitais, e o reconhecimento de voz cresce.

O que é a síntese da fala?

A síntese da fala, também conhecida como text-to-speech (sistema TTS), é uma simulação gerada por computador da voz humana. Os sintetizadores da fala convertem palavras escritas em língua falada.

Ao longo de um dia típico, é provável que encontre vários tipos de discurso sintético. A tecnologia de síntese de voz, auxiliada por aplicações, altifalantes inteligentes e auscultadores sem fios, torna a vida mais fácil ao melhorar:

Acessibilidade: Se for deficiente visual ou incapacitado, pode utilizar o sistema de texto para fala para ler o conteúdo do texto ou um leitor de ecrã para falar palavras em voz alta. Por exemplo, o sintetizador Text-to-Speech no TikTok é uma funcionalidade de acessibilidade popular que permite a qualquer pessoa consumir conteúdo visual dos meios de comunicação social.
Navegação: Enquanto conduz, não se pode olhar para um mapa, mas pode-se ouvir as instruções. Qualquer que seja o seu destino, a maioria das aplicações GPS podem fornecer alertas de voz úteis enquanto viaja, algumas em múltiplas línguas.
Está disponível assistência de voz. Assistentes áudio inteligentes como o Siri (iPhone) e o Alexa (Android) são excelentes para multitarefas, permitindo-lhe encomendar pizza ou ouvir o boletim meteorológico enquanto executa outras tarefas físicas (por exemplo, lavar a loiça) graças à sua inteligibilidade. Enquanto estas assistentes ocasionalmente cometem erros e são frequentemente concebidas como personagens femininas subservientes, soam bastante realistas.

Qual é a história da síntese da fala?

O inventor Wolfgang von Kempelen quase lá chegou com foles e tubos no século XVIII.
Em 1928, Homer W. Dudley, um cientista americano dos Laboratórios Bell/ Bell Labs, criou o Vocoder, um analisador de voz electrónico. Dudley desenvolve o Vocoder para o Voder, um sintetizador de voz electrónico operado através de um teclado.
Homer Dudley of Bell Laboratories demonstrou o primeiro sintetizador de voz funcional do mundo, o Voder, na Feira Mundial de 1939 na cidade de Nova Iorque. Era necessário um operador humano para operar as chaves e o pedal do aparelho maciço do tipo órgão.
Investigadores construídos sobre o Voder ao longo das próximas décadas. Os primeiros sistemas informáticos de síntese da fala foram desenvolvidos no final dos anos 50, e os Laboratórios Bell fizeram história novamente em 1961, quando o físico John Larry Kelly Jr. deu uma palestra sobre o IBM 704.
Os circuitos integrados tornaram possíveis produtos de síntese da fala comercial em telecomunicações e jogos de vídeo nas décadas de 1970 e 1980. O chip Vortex, utilizado nos jogos arcade, foi um dos primeiros circuitos integrados de síntese de fala.
A Texas Instruments fez um nome em 1980 com o sintetizador Speak N Spell, que era utilizado como um auxiliar de leitura electrónico para crianças.
Desde o início dos anos 90, os sistemas operativos informáticos padrão têm incluído sintetizadores de fala, principalmente para ditados e transcrição. Além disso, o TTS está agora a ser utilizado para vários fins, e as vozes sintéticas tornaram-se notavelmente precisas à medida que a inteligência artificial e a aprendizagem de máquinas avançaram.

Como funciona a Síntese da Fala?

A síntese da fala funciona em três fases: texto às palavras, palavras aos fonemas, e fonemas ao som.

1. Texto às palavras

A síntese da fala começa com o pré-processamento ou a normalização, o que reduz a ambiguidade ao escolher a melhor maneira de ler uma passagem. O pré-processamento envolve a leitura e limpeza do texto, para que o computador o leia com mais precisão. Números, datas, horas, abreviaturas, acrónimos, e caracteres especiais precisam de tradução. Para determinar a pronúncia mais provável, utilizam a probabilidade estatística ou redes neurais.

Homógrafos – palavras que têm pronúncias semelhantes mas significados diferentes requerem manuseamento por pré-processamento. Além disso, um sintetizador de fala não consegue entender “Vendo o carro” porque “vender” pode ser pronunciado “célula”. Ao reconhecer a ortografia (“Eu tenho um telemóvel”), pode-se adivinhar que “Eu vendo o carro” está correcto. Uma solução de reconhecimento de voz para transformar a voz humana em texto, mesmo com vocabulário complexo.

2. Palavras para os fonemas

Depois de determinar as palavras, o sintetizador de fala produz sons que contêm essas palavras. Cada computador requer uma grande lista alfabética de palavras e informação sobre como pronunciar cada palavra. Precisariam de uma lista dos fonemas que compõem o som de cada palavra. Os fonemas são cruciais uma vez que existem apenas 26 letras no alfabeto inglês, mas mais de 40 fonemas.

Em teoria, se um computador tem um dicionário de palavras e fonemas, basta ler uma palavra, procurá-la no dicionário, e depois ler os fonemas correspondentes. No entanto, na prática, é muito mais complexo do que parece.

O método alternativo envolve dividir as palavras escritas em grafemas e gerar fonemas que lhes correspondam usando regras simples.

3. Fonemas a tocar

O computador converteu agora o texto numa lista de fonemas. Mas como se encontram os fonemas básicos que o computador lê em voz alta quando converte texto para fala em diferentes línguas? Há três abordagens a esta questão.

Para começar, as gravações de humanos a dizer que os fonemas irão utilizar.
A segunda abordagem é que o computador gere fonemas utilizando frequências sonoras fundamentais.
A abordagem final consiste em imitar a técnica da voz humana em tempo real através de sons naturais com algoritmos de alta qualidade.

Síntese concatenada

Os sintetizadores de fala que utilizam vozes humanas gravadas devem ser pré-carregados com uma pequena quantidade de som humano que possa ser manipulada. Além disso, baseia-se no discurso humano que foi registado.

O que é a Síntese de Formant?

Os formantes são as frequências de 3-5 teclas (ressonantes) do som gerado e combinado pela corda vocal humana para produzir o som da fala ou do canto. Os formadores de sintetizadores de fala podem dizer qualquer coisa, incluindo palavras inexistentes e estrangeiras de que nunca ouviram falar. A síntese aditiva e a síntese de modelação física estão a ser utilizadas para gerar a produção da fala sintetizada.

O que é síntese Articulatória?

A síntese articulatória está a fazer falar os computadores simulando o intrincado tracto vocal humano e articulando o processo que aí ocorre. Devido à sua complexidade, é o método que os menos investigadores estudaram menos até agora.

Em suma, o software de síntese de voz/síntese texto-fala permite aos utilizadores ver texto escrito, ouvi-lo e lê-lo em voz alta, tudo ao mesmo tempo. Software diferente faz uso tanto de vozes geradas por computador como de vozes gravadas por humanos. A síntese da fala está a tornar-se mais popular à medida que a procura de envolvimento do cliente e a racionalização do processo organizacional cresce. Facilita a rentabilidade a longo prazo.