语音合成如何工作?

文本分析和语言处理

语音合成器正在改变工作场所文化。 语音合成读取文本。 文本转语音是指计算机大声朗读单词。 就是让机器说话简单,听起来像不同年龄和性别的人。 随着数字服务和语音识别的发展,文字转语音引擎正变得越来越流行。

什么是语音合成?

语音合成,也称为文本到语音(TTS 系统),是计算机生成的人类声音模拟。 语音合成器将书面文字转换为口语。

在典型的一天中,您可能会遇到各种类型的合成语音。 语音合成技术在应用程序、智能扬声器和无线耳机的帮助下,通过改进以下功能让生活更轻松:

  • 辅助功能:如果您有视力障碍或残疾,您可以使用文本到语音系统来阅读文本内容或使用屏幕阅读器大声说出单词。 例如,TikTok 上的文本转语音合成器是一种流行的辅助功能,允许任何人使用视觉社交媒体内容。
  • 导航:开车时不能看地图,但可以听指令。 无论您的目的地是什么,大多数 GPS 应用程序都可以在您旅行时提供有用的语音提示,有些还提供多种语言。
  • 提供语音帮助。 Siri (iPhone) 和 Alexa (Android) 等智能音频助手非常适合多任务处理,由于它们的清晰度,您可以在执行其他体力任务(例如洗碗)的同时订购比萨饼或收听天气预报。 虽然这些助手偶尔会犯错,而且经常被设计成顺从的女性角色,但她们听起来非常逼真。

语音合成的历史是怎样的?

  • 早在 18 世纪,发明家 Wolfgang von Kempelen 就几乎用波纹管和管子实现了这一目标。
  • 1928 年,贝尔实验室/贝尔实验室的美国科学家 Homer W. Dudley 发明了电子语音分析仪 Vocoder。 Dudley 将 Vocoder 发展为 Voder,一种通过键盘操作的电子语音合成器。
  • 贝尔实验室的 Homer Dudley 在 1939 年纽约市世界博览会上展示了世界上第一台功能性语音合成器 Voder。 需要一名人类操作员来操作大型风琴式设备的按键和脚踏板。
  • 在接下来的几十年里,研究人员在 Voder 的基础上进行了开发。 第一个基于计算机的语音合成系统是在 1950 年代后期开发的,贝尔实验室在 1961 年再次创造了历史,当时物理学家小约翰·拉里·凯利 (John Larry Kelly Jr.) 在 IBM 704 上发表了演讲。
  • 集成电路使 1970 年代和 80 年代的电信和视频游戏中的商业语音合成产品成为可能。 用于街机游戏的 Vortex 芯片是最早的语音合成集成电路之一。
  • 德州仪器 (Texas Instruments) 于 1980 年凭借 Speak N Spell 合成器一举成名,该合成器被用作儿童电子阅读辅助工具。
  • 自 20 世纪 90 年代初以来,标准计算机操作系统已经包含语音合成器,主要用于听写和转录。 此外,TTS 现在被用于各种用途,随着人工智能和机器学习的进步,合成语音变得非常准确。

语音合成是如何工作的?

语音合成分三个阶段进行:文本到单词、单词到音素和音素到声音。

1.文字转文字

语音合成从预处理或规范化开始,通过选择阅读段落的最佳方式来减少歧义。 预处理涉及阅读和清理文本,因此计算机可以更准确地阅读它。 数字、日期、时间、缩写、首字母缩略词和特殊字符需要翻译。 为了确定最可能的发音,他们使用统计概率或神经网络。

同形异义词——发音相似但含义不同的词需要通过预处理来处理。 此外,语音合成器无法理解“I sell the car”,因为“sell”可以发音为“cell”。 通过识别拼写(“I have a cell phone”),可以猜测“I sell the car”是正确的。 一种语音识别解决方案,可将人声转换为文本,即使词汇量很复杂。

2. 单词到音素

确定单词后,语音合成器会生成包含这些单词的声音。 每台计算机都需要大量按字母顺序排列的单词列表以及有关每个单词如何发音的信息。 他们需要一份构成每个单词发音的音素列表。 音素至关重要,因为英文字母表中只有 26 个字母,但音素却超过 40 个。

理论上,如果一台计算机有一个单词和音素的字典,它所要做的就是读一个单词,查字典,然后读出相应的音素。 然而,在实践中,它比看起来要复杂得多。

另一种方法是将书面文字分解成字素,并使用简单的规则生成与之对应的音素。

3. 发声的音素

计算机现在已将文本转换为音素列表。 但是,当计算机将文本转换为不同语言的语音时,您如何找到计算机大声朗读的基本音素呢? 有三种方法可以解决这个问题。

  • 首先,人类说出音素的录音将被使用。
  • 第二种方法是让计算机使用基本声音频率生成音素。
  • 最后一种方法是通过高质量算法的自然发声实时模仿人声技术。

串联合成

使用录制的人声的语音合成器必须预加载少量可以操纵的人声。 此外,它基于已记录的人类语音。

什么是共振峰合成?

共振峰是声音的 3-5 键(共振)频率,由人的声带产生和组合以产生说话或歌唱的声音。 共振峰语音合成器可以说出任何东西,包括不存在的和他们从未听说过的外来词。 加法合成和物理建模合成用于生成合成语音输出。

什么是发音合成?

发音合成是通过模拟复杂的人类声道并清晰地表达那里发生的过程来让计算机说话。 由于其复杂性,它是迄今为止研究人员研究最少的方法。

简而言之,语音合成软件/文本到语音合成允许用户同时看到、听到和大声朗读书面文本。 不同的软件同时使用计算机生成的和人工录制的声音。 随着对客户参与和组织流程简化的需求的增长,语音合成变得越来越流行。 它有助于长期盈利。

分享这篇文章:

最先进的人工智能

现在就开始使用Speaktor!

相关文章