Як працює синтез мовлення?

Аналіз тексту та лінгвістична обробка
Аналіз тексту та лінгвістична обробка

Speaktor 2023-07-13

Синтезатори мовлення змінюють культуру на робочому місці. Синтез мовлення читає текст. Перетворення тексту в мовлення — це коли комп’ютер читає слово вголос. Це означає, що машини розмовляють просто і звучать як люди різного віку та статі. Движки перетворення тексту на мову стають все більш популярними з розвитком цифрових послуг і розпізнавання голосу .

Що таке синтез мовлення?

Синтез мовлення, також відомий як перетворення тексту в мовлення (система TTS), — це створена комп’ютером імітація людського голосу. Синтезатори мовлення перетворюють написані слова в усну мову.

Протягом звичайного дня ви, ймовірно, стикаєтеся з різними типами синтетичного мовлення. Технологія синтезу мовлення за допомогою додатків, розумних колонок і бездротових навушників полегшує життя, покращуючи:

  • Доступність: якщо ви маєте порушення зору або інвалідність, ви можете використовувати систему синтезу мовлення, щоб читати текстовий вміст, або програму зчитування з екрана, щоб промовляти слова вголос. Наприклад, синтезатор тексту в мову на TikTok є популярною функцією доступності, яка дозволяє будь-кому споживати візуальний вміст соціальних мереж.
  • Навігація: під час руху ви не можете дивитися на карту, але можете слухати інструкції. Незалежно від місця призначення більшість програм GPS можуть надавати корисні голосові сповіщення під час подорожі, деякі з них кількома мовами.
  • Доступна голосова підтримка. Інтелектуальні аудіопомічники, такі як Siri (iPhone) і Alexa (Android), чудово підходять для багатозадачності, дозволяючи замовляти піцу або слухати прогноз погоди під час виконання інших фізичних завдань (наприклад, миття посуду) завдяки їх зрозумілості. Хоча ці помічники час від часу припускаються помилок і часто створені як підлеглі жіночі персонажі, вони звучать досить реалістично.

Яка історія синтезу мовлення?

  • Винахідник Вольфганг фон Кемпелен ледь не потрапив туди з міхами та трубками ще у 18 столітті.
  • У 1928 році Гомер В. Дадлі, американський вчений з Bell Laboratories/Bell Labs, створив вокодер, електронний аналізатор мови. Дадлі розробляє Vocoder у Voder, електронний синтезатор мови, що працює за допомогою клавіатури.
  • Гомер Дадлі з Bell Laboratories продемонстрував перший у світі функціональний голосовий синтезатор Voder на Всесвітній виставці 1939 року в Нью-Йорку. Людина-оператор мав керувати клавішами та ножною педаллю масивного апарату, схожого на орган.
  • Дослідники будували Водер протягом наступних кількох десятиліть. Перші комп’ютерні системи синтезу мови були розроблені наприкінці 1950-х років, і Bell Laboratories знову увійшли в історію в 1961 році, коли фізик Джон Ларрі Келлі молодший виступив з доповіддю IBM 704.
  • Завдяки інтегральним схемам у 1970-х і 1980-х роках комерційні продукти синтезу мови стали можливими в телекомунікаціях і відеоіграх. Мікросхема Vortex, яка використовується в аркадних іграх, була однією з перших інтегральних схем синтезу мови.
  • Компанія Texas Instruments зробила собі ім’я в 1980 році, створивши синтезатор Speak N Spell, який використовувався як електронний посібник для дітей.
  • З початку 1990-х років стандартні комп’ютерні операційні системи включали синтезатори мови, головним чином для диктування та транскрипції. Крім того, TTS тепер використовується для різних цілей, а синтетичні голоси стали надзвичайно точними з розвитком штучного інтелекту та машинного навчання.

Як працює синтез мовлення?

Синтез мовлення відбувається в три етапи: текст у слова, слова у фонеми та фонеми у звуки.

1. Текст до слів

Синтез мовлення починається з попередньої обробки або нормалізації, яка зменшує неоднозначність шляхом вибору найкращого способу читання уривка. Попередня обробка передбачає читання та очищення тексту, завдяки чому комп’ютер читає його точніше. Числа, дати, час, абревіатури, акроніми та спеціальні символи потребують перекладу. Щоб визначити найбільш імовірну вимову, вони використовують статистичну ймовірність або нейронні мережі.

Омографи — слова, які мають схожу вимову, але різні значення, вимагають попередньої обробки. Крім того, синтезатор мови не може зрозуміти «Я продаю машину», тому що «продати» можна вимовити як «клітка». Розпізнавши написання («у мене є мобільний телефон»), можна здогадатися, що «я продаю машину» є правильним. Рішення для розпізнавання мовлення для перетворення людського голосу в текст навіть зі складним словниковим запасом.

2. Слова до фонем

Після визначення слів синтезатор мовлення видає звуки, що містять ці слова. Для кожного комп’ютера потрібен чималий алфавітний список слів і інформація про те, як вимовляти кожне слово. Їм потрібен був список фонем, які складають звук кожного слова. Фонеми мають вирішальне значення, оскільки в англійському алфавіті лише 26 літер, але понад 40 фонем.

Теоретично, якщо комп’ютер має словник слів і фонем, все, що йому потрібно зробити, це прочитати слово, знайти його в словнику, а потім зачитати відповідні фонеми. Однак на практиці це набагато складніше, ніж здається.

Альтернативний метод передбачає розбиття написаних слів на графеми та генерування відповідних їм фонем за допомогою простих правил.

3. Фонеми за звучанням

Зараз комп’ютер перетворив текст на список фонем. Але як знайти основні фонеми, які комп’ютер читає вголос, коли він перетворює текст на мову різними мовами? Є три підходи до цього.

  • Для початку, записи людей, які говорять, що використовуватимуть фонеми.
  • Другий підхід полягає в тому, щоб комп’ютер генерував фонеми, використовуючи основні звукові частоти.
  • Останній підхід полягає в імітації техніки людського голосу в реальному часі за допомогою природного звучання за допомогою високоякісних алгоритмів.

Конкатенативний синтез

Синтезатори мовлення, які використовують записані людські голоси, мають попередньо завантажувати невелику кількість людського звуку, яким можна маніпулювати. Крім того, він базується на записаній людській мові.

Що таке формантний синтез?

Форманти — це 3-5 ключових (резонансних) частот звуку, які генеруються та поєднуються голосовою зв’язкою людини для створення звуку мови або співу. Синтезатори формантної мови можуть сказати що завгодно, включно з неіснуючими та іноземними словами, про які вони ніколи не чули. Адитивний синтез і синтез фізичного моделювання використовуються для генерації синтезованого мовного виводу.

Що таке артикуляційний синтез?

Артикуляційний синтез змушує комп’ютери говорити, імітуючи заплутаний людський голосовий тракт і артикулюючи процес, який там відбувається. Через свою складність цей метод найменш дослідники вивчали найменше досі.

Коротше кажучи, програмне забезпечення для синтезу голосу/синтезу тексту в мовлення дозволяє користувачам бачити письмовий текст, чути його та читати вголос одночасно. Різне програмне забезпечення використовує як створені комп’ютером, так і записані людьми голоси. Синтез мовлення стає все більш популярним, оскільки зростає попит на залучення клієнтів і оптимізацію організаційних процесів. Це сприяє довгостроковій прибутковості.

Поділитися публікацією

Озвучування тексту

img

Speaktor

Перетворіть текст на голос і читайте вголос