Како функционира синтезата на говорот?

Speaktor
декември 23, 2022

Говорните синтисајзери ја трансформираат културата на работното место. Со говорна синтеза се чита текстот. Текст во говор е кога компјутерот чита збор на глас. Тоа е машините да зборуваат едноставно и да звучат како луѓе од различна возраст и пол. Моторите за текст во говор стануваат се попопуларни како што дигиталните услуги, а препознавањето глас расте.

Што е синтеза на говор?

Синтезата на говор, позната и како текст-во-говор (ТТС систем), е компјутерски генерирана симулација на човечкиот глас. Говорните синтисајзери ги претвораат пишаните зборови во говорен јазик.

Во текот на еден типичен ден, најверојатно ќе наидете на различни видови синтетички говор. Технологијата за синтеза на говор, потпомогната од апликации, паметни звучници и безжични слушалки, го олеснува животот со подобрување:

Пристапност: ако сте со оштетен вид или оневозможено, можете да користите систем од текст во говор за да читате текстуална содржина или читач на екран за да зборувате зборови на глас. На пример, синтисајзерот Текст во говор на TikTok е популарна одлика за пристапност која им овозможува на секој да консумира визуелна содржина на социјалните медиуми.
Навигација: додека возите, не можете да гледате на мапа, но можете да слушате инструкции. Без оглед на вашата дестинација, повеќето GPS апликации можат да обезбедат корисни гласовни предупредувања додека патувате, некои на повеќе јазици.
Достапна е гласовна помош. Интелигентните аудио асистенти како што се Siri (iPhone) и Alexa (Android) се одлични за мултитаскинг, овозможувајќи ви да нарачате пица или да го слушате временскиот извештај додека извршувате други физички задачи (на пример, миење садови) благодарение на нивната разбирливост. Додека овие асистенти повремено прават грешки и често се дизајнирани како подредени женски ликови, тие звучат прилично реалистично.

Која е историјата на синтезата на говорот?

Пронаоѓачот Волфганг фон Кемпелен речиси стигнал таму со мевови и цевки уште во 18 век.
Во 1928 година, Хомер В. Дадли, американски научник во Bell Laboratories/ Bell Labs, го создал Vocoder, електронски говор анализатор. Дадли го развива Vocoder во Voder, електронски синтисајзер за говор кој работи преку тастатура.
Хомер Дадли од Bell Laboratories го демонстрираше првиот функционален синтисајзер за глас во светот, Voder, на Светскиот саем во 1939 година во Њујорк. Потребен беше човечки оператор да управува со клучевите и педалата на масивниот апарат налик на орган.
Истражувачите го изградија Водер во следните неколку децении. Првите компјутерски системи за синтеза на говор беа развиени кон крајот на 1950-тите, а Bell Laboratories повторно влезе во историјата во 1961 година кога физичарот Џон Лери Кели Џуниор одржа говор за IBM 704.
Интегрираните кола овозможија комерцијални производи за синтеза на говор во телекомуникациите и видео игрите во 1970-тите и 1980-тите. Чипот Vortex, користен во аркадни игри, беше едно од првите интегрирани кола за синтеза на говор.
Тексас Инструментс направи име за себе во 1980 година со синтисајзерот Speak N Spell, кој се користеше како електронско помагало за читање за деца.
Од раните 1990-ти, стандардните компјутерски оперативни системи вклучуваат синтисајзери за говор, првенствено за диктирање и транскрипција. Покрај тоа, TTS сега се користи за различни цели, а синтетичките гласови станаа неверојатно точни како што напредуваа вештачката интелигенција и машинското учење.

Како функционира синтезата на говорот?

Синтезата на говорот работи во три фази: текст во зборови, зборови до фонеми и фонеми до звук.

1. Текст во зборови

Синтезата на говорот започнува со претходна обработка или нормализација, што ја намалува двосмисленоста со избирање на најдобриот начин за читање пасус. Претходната обработка вклучува читање и чистење на текстот, така што компјутерот го чита попрецизно. Броевите, датумите, времињата, кратенките, акронимите и специјалните знаци имаат потреба од превод. За да го одредат најверојатниот изговор, тие користат статистичка веројатност или невронски мрежи.

Хомографи – зборовите кои имаат сличен изговор, но различно значења бараат ракување со претходна обработка. Исто така, синтисајзерот за говор не може да разбере „го продавам автомобилот“, бидејќи „продавам“ може да се изговори „ќелија“. Со препознавање на правописот („Имам мобилен телефон“) може да се погоди дека „Јас ја продавам колата“ е точна. Решение за препознавање говор за трансформирање на човечкиот глас во текст дури и со сложен вокабулар.

2. Зборови до фонеми

По одредувањето на зборовите, синтисајзерот за говор произведува звуци што ги содржат тие зборови. Секој компјутер бара голема азбучна листа на зборови и информации за тоа како да се изговара секој збор. Ќе им треба листа на фонеми што го сочинуваат звукот на секој збор. Фонемите се клучни бидејќи има само 26 букви во англиската азбука, но над 40 фонеми.

Теоретски, ако компјутерот има речник на зборови и фонеми, сè што треба да направи е да прочита збор, да го побара во речникот и потоа да ги прочита соодветните фонеми. Меѓутоа, во пракса, тоа е многу покомплексно отколку што изгледа.

Алтернативниот метод вклучува разложување на пишаните зборови на графеми и генерирање фонеми кои одговараат на нив со помош на едноставни правила.

3. Фонеми за звук

Компјутерот сега го претвори текстот во листа на фонеми. Но, како да ги пронајдете основните фонеми што компјутерот ги чита на глас кога го претвора текстот во говор на различни јазици? Постојат три пристапи за ова.

За почеток, снимки од луѓе кои велат дека фонемите ќе користат.
Вториот пристап е компјутерот да генерира фонеми користејќи основни звучни фреквенции.
Конечниот пристап е да се имитира техниката на човечки глас во реално време со природен звук со висококвалитетни алгоритми.

Конкатенативна синтеза

Синтисајзерите за говор што користат снимени човечки гласови мора да бидат претходно наполнети со мала количина човечки звук што може да се манипулира. Исто така, се заснова на човечкиот говор што е снимен.

Што е Формант синтеза?

Формантите се 3-5 клучни (резонантни) фреквенции на звук генерирани и комбинирани од човечките гласни жици за да се произведе звук на говор или пеење. Формантните говорни синтисајзери можат да кажат сè, вклучително и непостоечки и странски зборови за кои никогаш не сте слушнале. Адитивната синтеза и синтезата на физичко моделирање се користат за генерирање на синтетизираниот говорен излез.

Што е артикулаторна синтеза?

Артикулаторната синтеза прави компјутерите да зборуваат со симулирање на сложениот човечки вокален тракт и артикулирање на процесот што се случува таму. Поради својата сложеност, тоа е методот што најмалку истражувачи најмалку го проучувале досега.

Накратко, софтверот за синтеза на глас/синтеза од текст во говор им овозможува на корисниците да гледаат пишан текст, да го слушаат и да го читаат на глас во исто време. Различен софтвер користи и компјутерски генерирани и човечки снимени гласови. Синтезата на говорот станува се попопуларна како што расте побарувачката за ангажман на клиентите и рационализација на организацискиот процес. Тоа ја олеснува долгорочната профитабилност.

Споделете ја објавата: