Как работи синтезът на реч?

Speaktor
декември 23, 2022

Синтезаторите на речта променят културата на работното място. Текстът се чете чрез синтез на речта. Превръщането на текст в реч е, когато компютърът чете дума на глас. Целта е машините да говорят просто и да звучат като хора от различни възрасти и полове. Двигателите за преобразуване на текст в реч стават все по-популярни с развитието на цифровите услуги и гласовото разпознаване.

Какво представлява синтезът на реч?

Синтезът на реч, известен също като система за преобразуване на текст в реч (TTS), представлява компютърно генерирана симулация на човешкия глас. Синтезаторите на реч превръщат написаните думи в говорим език.

В рамките на един обикновен ден вероятно ще се сблъскате с различни видове синтетична реч. Технологията за синтез на реч, подпомагана от приложения, интелигентни високоговорители и безжични слушалки, улеснява живота, като подобрява:

Достъпност: Ако сте с увредено зрение или с увреждания, можете да използвате система за преобразуване на текст в реч, за да прочетете текстовото съдържание, или екранен четец, за да произнесете думите на глас. Например синтезаторът за преобразуване на текст в реч в TikTok е популярна функция за достъпност, която позволява на всеки да консумира визуално съдържание в социалните медии.
Навигация: По време на шофиране не можете да гледате карта, но можете да слушате инструкции. Независимо от дестинацията ви, повечето GPS приложения могат да предоставят полезни гласови предупреждения по време на пътуване, някои от които на няколко езика.
Налична е гласова помощ. Интелигентните аудио асистенти като Siri (iPhone) и Alexa (Android) са отлични за многозадачна работа, като благодарение на своята разбираемост ви позволяват да поръчвате пица или да слушате прогнозата за времето, докато изпълнявате други физически задачи (напр. миене на чинии). Въпреки че тези асистенти понякога правят грешки и често са проектирани като подчинени женски персонажи, те звучат доста реалистично.

Каква е историята на синтеза на реч?

През 18 век изобретателят Волфганг фон Кемпелен едва не го постига с помощта на мехове и тръби.
През 1928 г. Хоумър У. Дъдли, американски учен от Bell Laboratories/ Bell Labs, създава вокодера – електронен анализатор на речта. Дъдли разработва Vocoder в Voder – електронен синтезатор на реч, управляван чрез клавиатура.
На Световното изложение в Ню Йорк през 1939 г. Хоумър Дъдли от Bell Laboratories демонстрира първия в света функционален гласов синтезатор – Voder. Необходим е човешки оператор, който да управлява клавишите и педала на масивния орган.
През следващите няколко десетилетия изследователите доразвиват Voder. Първите компютърно базирани системи за синтез на реч са разработени в края на 50-те години на миналия век, а лабораториите Bell отново влизат в историята през 1961 г., когато физикът Джон Лари Кели-младши изнася разговор на IBM 704.
Интегралните схеми направиха възможни търговските продукти за синтез на реч в телекомуникациите и видеоигрите през 70-те и 80-те години на миналия век. Чипът Vortex, използван в аркадните игри, е една от първите интегрални схеми за синтез на реч.
Texas Instruments се прочува през 1980 г. със синтезатора Speak N Spell, който се използва като електронно помагало за четене за деца.
От началото на 90-те години на миналия век стандартните компютърни операционни системи включват синтезатори на реч, предимно за диктовка и транскрипция. Освен това TTS вече се използва за различни цели, а синтетичните гласове са станали изключително точни с напредването на изкуствения интелект и машинното обучение.

Как работи синтезът на речта?

Синтезът на речта се извършва на три етапа: текст към думи, думи към фонеми и фонеми към звук.

1. Превръщане на текст в думи

Синтезът на речта започва с предварителна обработка или нормализация, която намалява двусмислието, като избира най-добрия начин за четене на даден пасаж. Предварителната обработка включва четене и почистване на текста, така че компютърът да го прочете по-точно. Числа, дати, времена, съкращения, акроними и специални символи се нуждаят от превод. За да определят най-вероятното произношение, те използват статистическа вероятност или невронни мрежи.

Омографите – думи, които имат сходно произношение, но различно значение, изискват предварителна обработка. Освен това синтезаторът на реч не може да разбере „продавам колата“, защото „продавам“ може да се произнесе като „клетка“. Като разпознаем правописа („Имам мобилен телефон“), можем да предположим, че „Продавам колата“ е правилно. Решение за разпознаване на реч, което превръща човешкия глас в текст, дори и със сложен речник.

2. Превръщане на думи във фонеми

След като определи думите, синтезаторът на реч произвежда звуци, съдържащи тези думи. Всеки компютър се нуждае от голям азбучен списък с думи и информация за начина на произнасяне на всяка дума. Ще им е необходим списък с фонемите, които съставляват звука на всяка дума. Фонемите са от решаващо значение, тъй като в английската азбука има само 26 букви, но над 40 фонеми.

На теория, ако компютърът разполага с речник на думите и фонемите, всичко, което трябва да направи, е да прочете дадена дума, да я потърси в речника и след това да прочете съответните фонеми. На практика обаче тя е много по-сложна, отколкото изглежда.

Алтернативният метод включва разбиване на написаните думи на графеми и генериране на съответстващите им фонеми с помощта на прости правила.

3. Фонеми към звук

Компютърът вече е превърнал текста в списък от фонеми. Но как да намерите основните фонеми, които компютърът чете на глас, когато преобразува текст в реч на различни езици? Съществуват три подхода за това.

За начало ще се използват записи на хора, които произнасят фонемите.
Вторият подход е компютърът да генерира фонеми, като използва основните звукови честоти.
Последният подход е да се имитира техниката на човешкия глас в реално време чрез естествено звучене с висококачествени алгоритми.

Конкатенативен синтез

Синтезаторите на реч, които използват записани човешки гласове, трябва да бъдат предварително заредени с малко количество човешки звук, който може да бъде манипулиран. Освен това той се основава на записана човешка реч.

Какво представлява синтезът на форманта?

Формантите са 3-5 ключови (резонансни) честоти на звука, които се генерират и комбинират от човешката гласна струна, за да се получи звукът на речта или пеенето. Формантните синтезатори на реч могат да казват всичко, включително несъществуващи и чужди думи, които никога не са чували. За генериране на синтезираната реч се използват адитивен синтез и синтез с физическо моделиране.

Какво е артикулационен синтез?

Артикулационният синтез позволява на компютрите да говорят, като симулират сложния човешки гласов тракт и артикулират процесите, които протичат в него. Поради своята сложност това е методът, който досега е проучен най-малко от изследователите.

Накратко, софтуерът за синтез на глас/ синтезът на текст в реч позволява на потребителите да виждат писмен текст, да го чуват и да го четат на глас едновременно. Различният софтуер използва както компютърно генерирани, така и записани от хора гласове. Синтезът на реч става все по-популярен с нарастването на търсенето на ангажираност на клиентите и рационализиране на организационните процеси. Тя улеснява дългосрочната рентабилност.

Споделяне на публикацията: