Како функционише синтеза говора?

Speaktor
23 децембра, 2022

Синтисајзери говора трансформишу културу радног места. Синтеза говора чита текст. Претварање текста у говор је када рачунар чита реч наглас. То је да машине говоре једноставно и звуче као људи различитог узраста и пола. Механизми за претварање текста у говор постају све популарнији како дигиталне услуге и препознавање гласа расту.

Шта је синтеза говора?

Синтеза говора, такође позната као текст у говор (ТТС систем), је компјутерски генерисана симулација људског гласа. Синтетизатори говора претварају писане речи у говорни језик.

Током обичног дана, вероватно ћете наићи на различите врсте синтетичког говора. Технологија синтезе говора, уз помоћ апликација, паметних звучника и бежичних слушалица, олакшава живот побољшавањем:

Приступачност: Ако сте слабовиди или сте инвалиди, можете да користите систем текста у говор за читање текстуалног садржаја или читач екрана да изговорите речи наглас. На пример, синтисајзер текста у говор на ТикТок-у је популарна функција приступачности која омогућава свакоме да конзумира визуелни садржај друштвених медија.
Навигација: Док возите, не можете гледати у мапу, али можете слушати упутства. Без обзира на ваше одредиште, већина ГПС апликација може пружити корисна гласовна упозорења док путујете, неке на више језика.
Доступна је гласовна помоћ. Интелигентни аудио асистенти као што су Siri (iPhone ) и Аlexa (Аndroid ) су одлични за обављање више задатака, омогућавајући вам да наручите пицу или слушате временску прогнозу док обављате друге физичке задатке (нпр. прање судова) захваљујући њиховој разумљивости. Иако ови асистенти повремено праве грешке и често су дизајнирани као подређени женски ликови, звуче прилично живо.

Каква је историја синтезе говора?

Проналазач Волфганг фон Кемпелен умало је стигао тамо са меховима и цевима још у 18. веку.
Године 1928, Хомер В. Дудлеи, амерички научник у Белл Лабораториес/ Белл Лабс, креирао је Воцодер, електронски анализатор говора. Дудлеи развија Воцодер у Водер, електронски синтисајзер говора којим се управља преко тастатуре.
Хомер Дадли из Белл Лабораториес демонстрирао је први на свету функционални синтисајзер гласа, Водер, на Светском сајму у Њујорку 1939. године. Људски оператер је био потребан да управља тастерима и ножном педалом масивног апарата налик органу.
Истраживачи су градили Водер у наредних неколико деценија. Први компјутерски засновани системи за синтезу говора развијени су касних 1950-их, а Белл Лабораториес је поново ушао у историју 1961. године када је физичар Џон Лари Кели млађи одржао говор о IBM 704.
Интегрисана кола су омогућила комерцијалне производе за синтезу говора у телекомуникацијама и видео игрицама 1970-их и 1980-их. Вортек чип, коришћен у аркадним играма, био је једно од првих интегрисаних кола за синтезу говора.
Текас Инструментс је стекао име 1980. са синтисајзером Спеак Н Спелл, који је коришћен као електронско помагало за читање за децу.
Од раних 1990-их, стандардни рачунарски оперативни системи укључују синтисајзере говора, првенствено за диктирање и транскрипцију. Поред тога, ТТС се сада користи у различите сврхе, а синтетички гласови су постали изузетно прецизни како су вештачка интелигенција и машинско учење напредовали.

Како функционише синтеза говора?

Синтеза говора функционише у три фазе: текст у речи, речи у фонеме и фонеме у звук.

1. Текст у речи

Синтеза говора почиње претходном обрадом или нормализацијом, што смањује двосмисленост одабиром најбољег начина читања одломка. Претходна обрада подразумева читање и чишћење текста, па га рачунар тачније чита. Бројеви, датуми, времена, скраћенице, акроними и специјални знакови захтевају превод. Да би одредили највероватнији изговор, користе статистичку вероватноћу или неуронске мреже.

Хомографи—речи које имају сличан изговор, али различита значења захтевају руковање претходном обрадом. Такође, синтисајзер говора не може да разуме „ја продајем ауто“ јер се „продаја“ може изговорити као „ћелија“. Препознавањем правописа („Имам мобилни“) може се претпоставити да је „Продајем ауто“ тачно. Решење за препознавање говора за трансформацију људског гласа у текст чак и са сложеним речником.

2. Речи фонемама

Након одређивања речи, синтетизатор говора производи звукове који садрже те речи. Сваки рачунар захтева велику абецедну листу речи и информације о томе како да изговорите сваку реч. Требала би им листа фонема које чине звук сваке речи. Фонеми су пресудни јер енглеска абецеда има само 26 слова, али преко 40 фонема.

У теорији, ако рачунар има речник речи и фонема, све што треба да уради је да прочита реч, потражи је у речнику, а затим прочита одговарајуће фонеме. Међутим, у пракси је много сложеније него што се чини.

Алтернативни метод укључује разбијање написаних речи у графеме и генерисање фонема који им одговарају помоћу једноставних правила.

3. Фонеме за звук

Рачунар је сада конвертовао текст у листу фонема. Али како пронаћи основне фонеме које рачунар чита наглас када претвара текст у говор на различитим језицима? Постоје три приступа овоме.

За почетак, снимци људи који говоре да ће фонеме користити.
Други приступ је да рачунар генерише фонеме користећи основне звучне фреквенције.
Коначни приступ је опонашање технике људског гласа у реалном времену природним звуком са висококвалитетним алгоритмима.

Цонцатенативе Синтхесис

Синтисајзери говора који користе снимљене људске гласове морају бити унапред учитани са малом количином људског звука којим се може манипулисати. Такође, заснован је на људском говору који је снимљен.

Шта је формантна синтеза?

Форманти су 3-5 кључних (резонантних) фреквенција звука које генерише и комбинује људска гласна жица да би се произвео звук говора или певања. Формантни говорни синтисајзери могу да кажу било шта, укључујући непостојеће и стране речи за које никада нису чули. За генерисање синтетизованог говорног излаза користе се адитивна синтеза и синтеза физичког моделирања.

Шта је артикулаторна синтеза?

Артикулаторна синтеза чини да компјутери говоре симулирајући замршени људски вокални тракт и артикулишући процес који се тамо дешава. Због своје сложености, то је метод који је најмање истраживача до сада најмање проучавало.

Укратко, софтвер за синтезу гласа/синтеза текста у говор омогућава корисницима да виде писани текст, чују га и читају наглас све у исто време. Различити софтвер користи и компјутерски генерисане гласове и гласове снимљене људима. Синтеза говора постаје све популарнија како расте потражња за ангажовањем купаца и рационализацијом организационих процеса. Олакшава дугорочну профитабилност.

Поделите објаву: