语音合成器正在改变工作场所文化。 语音合成读取文本。 文本转语音是指计算机大声朗读单词。 就是让机器说话简单,听起来像不同年龄和性别的人。 随着数字服务和语音识别的发展,文本转语音引擎变得越来越流行。

什么是语音合成?

语音合成,也称为文本到语音(TTS 系统),是计算机生成的人类声音模拟。 语音合成器将书面文字转换为口语。

在典型的一天中,您可能会遇到各种类型的合成语音。 语音合成技术在应用程序、智能扬声器和无线耳机的帮助下,通过改进以下功能让生活更轻松:

语音合成的历史是怎样的?

语音合成是如何工作的?

语音合成分三个阶段进行:文本到单词、单词到音素和音素到声音。

1.文字转文字

语音合成从预处理或规范化开始,通过选择阅读段落的最佳方式来减少歧义。 预处理涉及阅读和清理文本,因此计算机可以更准确地阅读它。 数字、日期、时间、缩写、首字母缩略词和特殊字符需要翻译。 为了确定最可能的发音,他们使用统计概率或神经网络。

同形异义词——发音相似但含义不同的词需要通过预处理来处理。 此外,语音合成器无法理解“I sell the car”,因为“sell”可以发音为“cell”。 通过识别拼写(“I have a cell phone”),可以猜测“I sell the car”是正确的。 一种语音识别解决方案,可将人声转换为文本,即使词汇量很复杂。

2. 单词到音素

确定单词后,语音合成器会生成包含这些单词的声音。 每台计算机都需要大量按字母顺序排列的单词列表以及有关每个单词如何发音的信息。 他们需要一份构成每个单词发音的音素列表。 音素至关重要,因为英文字母表中只有 26 个字母,但音素却超过 40 个。

理论上,如果一台计算机有一个单词和音素的字典,它所要做的就是读一个单词,查字典,然后读出相应的音素。 然而,在实践中,它比看起来要复杂得多。

另一种方法是将书面文字分解成字素,并使用简单的规则生成与之对应的音素。

3. 发声的音素

计算机现在已将文本转换为音素列表。 但是,当计算机将文本转换为不同语言的语音时,您如何找到计算机大声朗读的基本音素呢? 有三种方法可以解决这个问题。

串联合成

使用录制的人声的语音合成器必须预加载少量可以操纵的人声。 此外,它基于已记录的人类语音。

什么是共振峰合成?

共振峰是声音的 3-5 键(共振)频率,由人的声带产生和组合以产生说话或歌唱的声音。 共振峰语音合成器可以说出任何东西,包括不存在的和他们从未听说过的外来词。 加法合成和物理建模合成用于生成合成语音输出。

什么是发音合成?

发音合成是通过模拟复杂的人类声道并清晰地表达那里发生的过程来让计算机说话。 由于其复杂性,它是迄今为止研究人员研究最少的方法。

简而言之,语音合成软件/文本到语音合成允许用户同时看到、听到和大声朗读书面文本。 不同的软件同时使用计算机生成的和人工录制的声音。 随着对客户参与和组织流程简化的需求的增长,语音合成变得越来越流行。 它有助于长期盈利。