音声合成の仕組み

テキスト分析と言語処理

音声合成が職場文化を変える。 音声合成でテキストを読み上げます。 音声合成は、コンピューターが言葉を読み上げることです。 それは、機械が年齢も性別も異なる人たちと同じように、シンプルに話し、音を出すことです。 デジタルサービスや音声認識の発展に伴い、音声合成エンジンの普及が進んでいます。

音声合成とは?

音声合成は、音声合成システムとも呼ばれ、人間の声をコンピュータで再現したものである。 音声合成装置は、書き言葉を話し言葉に変換する装置です。

一日の生活の中で、様々な合成音声に出会うことがあります。 音声合成技術は、アプリやスマートスピーカー、ワイヤレスヘッドホンなどの支援により、生活をより快適なものにしています。

  • アクセシビリティについて 視覚に障がいのある方は、テキストコンテンツを読むための音声合成システムや、文字を読み上げるためのスクリーンリーダーを利用することができます。 例えば、TikTokのText-to-Speechシンセサイザーは、誰もがビジュアルなソーシャルメディアコンテンツを消費できるようにするアクセシビリティ機能として人気があります。
  • ナビゲーション運転中、地図を見ることはできませんが、指示を聞くことはできます。 どのような目的地であっても、ほとんどのGPSアプリは、旅行中に役立つ音声アラートを提供します(多言語のものもあります)。
  • 音声アシストが可能です。 Siri(iPhone)やAlexa(Android)などのインテリジェントオーディオアシスタントはマルチタスクに優れており、ピザを注文したり天気予報を聞いたりしながら、その明瞭さによって他の身体的作業(例えば皿洗いなど)を行うことができます。 このアシスタントは時々ミスをしたり、従属的な女性キャラクターとしてデザインされることが多いのですが、かなりリアルに聞こえます。

音声合成の歴史は?

  • 18世紀、発明家ウォルフガング・フォン・ケンペレンは、蛇腹とチューブを使い、もう少しで実現するところだった。
  • 1928年、アメリカのベル研究所/Bell Laboratoriesの科学者、ホーマー・W・ダドリーは、電子音声分析器「Vocoder(ボコーダー)」を開発した。 ダドリーは、ボコーダーをキーボードで操作する電子音声合成装置「Voder」へと発展させた。
  • ベル研究所のホーマー・ダドリーは、1939年のニューヨーク万国博覧会で、世界初の機能性音声合成装置「Voder(ボーダー)」のデモを行った。 オルガンのような巨大な装置の鍵盤とフットペダルを操作するのは、人間でなければならない。
  • その後、数十年にわたり、研究者たちはVoderをベースに開発を進めていった。 1950年代後半には、コンピュータを使った最初の音声合成システムが開発され、1961年には物理学者ジョン・ラリー・ケリー・ジュニアがIBM704で講演し、ベル研究所は再び歴史にその名を刻んだ。
  • 集積回路により、1970年代から1980年代にかけて、通信機器やテレビゲームなどで商用音声合成製品が実現した。 アーケードゲームに使われた「ボルテックス」は、音声合成集積回路の先駆けである。
  • テキサス・インスツルメンツ社は、1980年に子供用の電子読書器として使われた「スピークン スペル」シンセサイザーで一躍有名になった。
  • 1990年代初頭から、コンピュータのオペレーティングシステムには、主にディクテーションやトランスクリプションのための音声合成装置が標準搭載されています。 また、TTSは様々な用途で利用されるようになり、人工知能や機械学習の進展により合成音声の精度も著しく向上しています。

音声合成の仕組み

音声合成は、「文字から言葉」「言葉から音素」「音素から音」の3つの段階で行われる。

1.テキストからワードへ

音声合成は前処理や正規化から始まり、最適な読み方を選択することで曖昧さを軽減する。 前処理では、コンピュータがより正確に読み取ることができるように、テキストを読み込んできれいにします。 数字、日付、時刻、略語、頭字語、特殊文字などは翻訳が必要です。 最も可能性の高い発音を判断するために、統計的確率やニューラルネットワークを利用するのである。

同音異義語(発音は似ているが意味が異なる単語)は、前処理が必要である。 また、”sell “は “cell “と発音されることがあるため、音声合成装置は「車を売ります」を理解することができない。 スペル(「I have a cell phone」)を認識することで、「I sell the car」が正しいことが推測できる。 複雑な語彙でも人の声をテキストに変換する音声認識ソリューション。

2.単語から音素へ

単語を決定した後、音声合成装置はその単語を含む音声を生成する。 どのコンピューターにも、かなりの量のアルファベット順の単語リストと、それぞれの単語の発音の情報が必要です。 各単語の音を構成する音素のリストが必要なのだ。 英語のアルファベットは26文字しかないが、音素は40以上あるため、音素は非常に重要である。

理論的には、コンピュータに単語と音素の辞書があれば、単語を読み、辞書で調べ、対応する音素を読み上げるだけでよい。 しかし、実際には見た目よりもずっと複雑なのです。

もう一つの方法は、書かれた言葉を簡単なルールで文字に分解し、それに対応する音素を生成する方法である。

3.音素から音へ

これでコンピュータは、テキストを音素のリストに変換したことになる。 しかし、コンピュータがさまざまな言語のテキストを音声に変換する際に読み上げる基本的な音素は、どのようにして見つけるのでしょうか。 これには、3つのアプローチがあります。

  • まず、人間が音素を発声する録音を使用します。
  • 2つ目は、基本音の周波数を使ってコンピュータが音素を生成する方法である。
  • 最終的には、高品質なアルゴリズムによる自然な発音で、人間の音声技術をリアルタイムに模倣するアプローチです。

れんけつごうせい

録音された人の声を使う音声合成装置には、操作可能な少量の人の声をあらかじめ入れておく必要があります。 また、録音された人間の音声がベースになっています。

フォルマント合成とは?

フォルマントとは、人間の声帯で発生し、組み合わされ、音声や歌声を生み出す3~5つの音のキー(共振)周波数のことである。 フォルマント音声合成は、存在しない言葉や聞いたことのない外国語など、何でも言えるのです。 合成音声の出力には、加算合成と物理モデリング合成を使用しています。

調音合成とは?

調音合成とは、人間の複雑な声道をシミュレートし、そこで起こるプロセスを調音することで、コンピュータに喋らせることである。 その複雑さゆえに、これまで最も研究者が少なかった方法です。

つまり、音声合成ソフト/音声合成は、書いた文字を見る、聞く、読むを同時に行うことができる。 ソフトによって、CGや人が録音した音声が使われているものもあります。 音声合成は、顧客とのエンゲージメントや組織のプロセス合理化の要求が高まるにつれて、より一般的になってきています。 長期的な収益性を確保しやすくなります。

記事を共有する

最先端のAI

今すぐSpeaktorを始めましょう!

関連記事