Как работает синтез речи?

Анализ текста и лингвистическая обработка
Анализ текста и лингвистическая обработка

Speaktor 2023-07-13

Синтезаторы речи меняют культуру рабочего места. Синтез речи читает текст. Передача текста в речь — это когда компьютер читает слово вслух. Она заключается в том, чтобы машины говорили просто и звучали как люди разных возрастов и полов. Системы преобразования текста в речь становятся все более популярными по мере развития цифровых услуг и распознавания голоса .

Что такое синтез речи?

Синтез речи, также известный как преобразование текста в речь (система TTS), представляет собой компьютерную имитацию человеческого голоса. Синтезаторы речи преобразуют написанные слова в устную речь.

В течение обычного дня вы, скорее всего, столкнетесь с различными типами синтетической речи. Технология синтеза речи, с помощью приложений, умных колонок и беспроводных наушников, облегчает жизнь, улучшая ее:

  • Доступность: Если у вас проблемы со зрением или инвалидность, вы можете использовать систему преобразования текста в речь для чтения текстового содержимого или программу чтения с экрана для проговаривания слов вслух. Например, синтезатор текста в речь на TikTok — это популярная функция доступности, которая позволяет любому человеку потреблять визуальный контент социальных сетей.
  • Навигация: Во время движения нельзя смотреть на карту, но можно слушать инструкции. Независимо от места назначения, большинство GPS-приложений могут предоставлять полезные голосовые оповещения во время поездки, причем некоторые из них на нескольких языках.
  • Доступна голосовая помощь. Интеллектуальные аудиопомощники, такие как Siri (iPhone) и Alexa (Android), отлично подходят для многозадачности, позволяя вам заказать пиццу или прослушать прогноз погоды, одновременно выполняя другие физические задачи (например, мытье посуды) благодаря своей разборчивости. Хотя эти помощники иногда совершают ошибки и часто выполнены в виде подчиненных женских персонажей, они звучат довольно реалистично.

Какова история синтеза речи?

  • Изобретатель Вольфганг фон Кемпелен почти достиг этой цели с помощью мехов и трубок еще в 18 веке.
  • В 1928 году Гомер В. Дадли, американский ученый из Bell Laboratories / Bell Labs, создал вокодер — электронный анализатор речи. Дадли развивает вокодер в Voder — электронный синтезатор речи, управляемый с клавиатуры.
  • Гомер Дадли из Bell Laboratories продемонстрировал первый в мире функциональный синтезатор голоса Voder на Всемирной выставке 1939 года в Нью-Йорке. Для управления клавишами и педалью массивного органоподобного аппарата требовался человек-оператор.
  • Исследователи развивали Voder в течение следующих нескольких десятилетий. Первые компьютерные системы синтеза речи были разработаны в конце 1950-х годов, а Bell Laboratories снова вошли в историю в 1961 году, когда физик Джон Ларри Келли-младший выступил с докладом на IBM 704.
  • Интегральные схемы сделали возможными коммерческие продукты синтеза речи в телекоммуникациях и видеоиграх в 1970-х и 1980-х годах. Чип Vortex, использовавшийся в аркадных играх, был одной из первых интегральных схем синтеза речи.
  • Компания Texas Instruments заявила о себе в 1980 году, выпустив синтезатор Speak N Spell, который использовался в качестве электронного пособия по чтению для детей.
  • С начала 1990-х годов стандартные компьютерные операционные системы включают синтезаторы речи, в основном для диктовки и транскрипции. Кроме того, TTS сегодня используется для различных целей, а синтетические голоса стали удивительно точными по мере развития искусственного интеллекта и машинного обучения.

Как работает синтез речи?

Синтез речи состоит из трех этапов: текст в слова, слова в фонемы и фонемы в звук.

1. Текст в слова

Синтез речи начинается с предварительной обработки или нормализации, которая уменьшает двусмысленность, выбирая наилучший способ прочтения отрывка. Предварительная обработка включает в себя чтение и очистку текста, чтобы компьютер читал его более точно. Цифры, даты, время, аббревиатуры, акронимы и специальные символы требуют перевода. Чтобы определить наиболее вероятное произношение, они используют статистическую вероятность или нейронные сети.

Омографы — слова, которые имеют схожее произношение, но разное значение, требуют предварительной обработки. Кроме того, синтезатор речи не сможет понять «Я продаю машину», потому что «продать» может быть произнесено как «клетка». Распознав написание («у меня есть мобильный телефон»), можно догадаться, что правильно «я продаю машину». Решение для распознавания речи, позволяющее преобразовывать человеческий голос в текст даже со сложным словарным запасом.

2. От слов к фонемам

После определения слов синтезатор речи производит звуки, содержащие эти слова. Каждому компьютеру требуется большой алфавитный список слов и информация о том, как произносить каждое слово. Им понадобится список фонем, составляющих звук каждого слова. Фонемы имеют решающее значение, поскольку в английском алфавите всего 26 букв, но более 40 фонем.

Теоретически, если у компьютера есть словарь слов и фонем, все, что ему нужно сделать, это прочитать слово, найти его в словаре, а затем прочитать соответствующие фонемы. Однако на практике все гораздо сложнее, чем кажется.

Альтернативный метод предполагает разбиение написанных слов на графемы и генерирование соответствующих им фонем с помощью простых правил.

3. Фонемы к звуку

Теперь компьютер преобразовал текст в список фонем. Но как найти основные фонемы, которые компьютер читает вслух при преобразовании текста в речь на разных языках? Существует три подхода к этому вопросу.

  • Для начала будут использоваться записи людей, произносящих фонемы.
  • Второй подход заключается в том, что компьютер генерирует фонемы, используя фундаментальные звуковые частоты.
  • Последний подход заключается в имитации техники человеческого голоса в реальном времени путем естественного озвучивания с помощью высококачественных алгоритмов.

Конкатенативный синтез

Синтезаторы речи, использующие записанные человеческие голоса, должны быть предварительно загружены небольшим количеством человеческого звука, которым можно манипулировать. Кроме того, он основан на записанной человеческой речи.

Что такое синтез формант?

Форманты — это 3-5 ключевых (резонансных) частот звука, генерируемых и объединяемых голосовыми связками человека для создания звука речи или пения. Формантные синтезаторы речи могут говорить все, что угодно, включая несуществующие и иностранные слова, о которых они никогда не слышали. Аддитивный синтез и синтез физического моделирования используются для генерации синтезированной речи.

Что такое артикуляторный синтез?

Артикуляционный синтез позволяет заставить компьютеры говорить путем имитации сложного человеческого голосового тракта и артикуляции происходящих в нем процессов. Из-за своей сложности, это метод, который до сих пор изучался меньше всего исследователями.

Короче говоря, программное обеспечение для синтеза голоса/синтеза текста в речь позволяет пользователям одновременно видеть написанный текст, слышать его и читать вслух. В различных программах используются как сгенерированные компьютером, так и записанные человеком голоса. Синтез речи становится все более популярным по мере роста спроса на привлечение клиентов и оптимизацию организационных процессов. Это способствует долгосрочной прибыльности.

Поделиться публикацией

Преобразование текста в речь

img

Speaktor

Преобразуйте текст в голос и читайте вслух