Синтезаторите на речта променят културата на работното място. Текстът се чете чрез синтез на речта. Превръщането на текст в реч е, когато компютърът чете дума на глас. Целта е машините да говорят просто и да звучат като хора от различни възрасти и полове. Двигателите за преобразуване на текст в реч стават все по-популярни с развитието на цифровите услуги и гласовото разпознаване.

Какво представлява синтезът на реч?

Синтезът на реч, известен също като система за преобразуване на текст в реч (TTS), представлява компютърно генерирана симулация на човешкия глас. Синтезаторите на реч превръщат написаните думи в говорим език.

В рамките на един обикновен ден вероятно ще се сблъскате с различни видове синтетична реч. Технологията за синтез на реч, подпомагана от приложения, интелигентни високоговорители и безжични слушалки, улеснява живота, като подобрява:

Каква е историята на синтеза на реч?

Как работи синтезът на речта?

Синтезът на речта се извършва на три етапа: текст към думи, думи към фонеми и фонеми към звук.

1. Превръщане на текст в думи

Синтезът на речта започва с предварителна обработка или нормализация, която намалява двусмислието, като избира най-добрия начин за четене на даден пасаж. Предварителната обработка включва четене и почистване на текста, така че компютърът да го прочете по-точно. Числа, дати, времена, съкращения, акроними и специални символи се нуждаят от превод. За да определят най-вероятното произношение, те използват статистическа вероятност или невронни мрежи.

Омографите – думи, които имат сходно произношение, но различно значение, изискват предварителна обработка. Освен това синтезаторът на реч не може да разбере „продавам колата“, защото „продавам“ може да се произнесе като „клетка“. Като разпознаем правописа („Имам мобилен телефон“), можем да предположим, че „Продавам колата“ е правилно. Решение за разпознаване на реч, което превръща човешкия глас в текст, дори и със сложен речник.

2. Превръщане на думи във фонеми

След като определи думите, синтезаторът на реч произвежда звуци, съдържащи тези думи. Всеки компютър се нуждае от голям азбучен списък с думи и информация за начина на произнасяне на всяка дума. Ще им е необходим списък с фонемите, които съставляват звука на всяка дума. Фонемите са от решаващо значение, тъй като в английската азбука има само 26 букви, но над 40 фонеми.

На теория, ако компютърът разполага с речник на думите и фонемите, всичко, което трябва да направи, е да прочете дадена дума, да я потърси в речника и след това да прочете съответните фонеми. На практика обаче тя е много по-сложна, отколкото изглежда.

Алтернативният метод включва разбиване на написаните думи на графеми и генериране на съответстващите им фонеми с помощта на прости правила.

3. Фонеми към звук

Компютърът вече е превърнал текста в списък от фонеми. Но как да намерите основните фонеми, които компютърът чете на глас, когато преобразува текст в реч на различни езици? Съществуват три подхода за това.

Конкатенативен синтез

Синтезаторите на реч, които използват записани човешки гласове, трябва да бъдат предварително заредени с малко количество човешки звук, който може да бъде манипулиран. Освен това той се основава на записана човешка реч.

Какво представлява синтезът на форманта?

Формантите са 3-5 ключови (резонансни) честоти на звука, които се генерират и комбинират от човешката гласна струна, за да се получи звукът на речта или пеенето. Формантните синтезатори на реч могат да казват всичко, включително несъществуващи и чужди думи, които никога не са чували. За генериране на синтезираната реч се използват адитивен синтез и синтез с физическо моделиране.

Какво е артикулационен синтез?

Артикулационният синтез позволява на компютрите да говорят, като симулират сложния човешки гласов тракт и артикулират процесите, които протичат в него. Поради своята сложност това е методът, който досега е проучен най-малко от изследователите.

Накратко, софтуерът за синтез на глас/ синтезът на текст в реч позволява на потребителите да виждат писмен текст, да го чуват и да го четат на глас едновременно. Различният софтуер използва както компютърно генерирани, така и записани от хора гласове. Синтезът на реч става все по-популярен с нарастването на търсенето на ангажираност на клиентите и рационализиране на организационните процеси. Тя улеснява дългосрочната рентабилност.