文本到语音的合成是将文本转换为尽可能接近真实语音的合成语音,这些合成语音会按照特殊语言的发音规范。而这样的系统称为文本到语音(TTS)系统。输入TTS系统的元素是文本,输出元素是合成语音文件。
什么是语音合成?
语音合成,也称为文本到语音(TTS)。是计算机对人类声音的模拟,语音合成器将书面文字转化为口语。
应用程序、电话、计算机甚至汽车现在都配备了复杂的内置文本转语音工具。
语音合成在生活中的常见应用
1、汽车导航
开车时不能看地图,但可以听指示。无论要去哪里,大多数GPS程序或者地图APP都可以在出行时提供有用的语音导航。
2、语音协助
常见的有Siri、天猫精灵等智能助手现在已经可以进行多任务处理,比如说当人处于从事其他任务时可以通过呼唤智能助手,收听天气预报、听歌、打电话等等。
文字转语音的难点
1、每个人都有独特的声音纹理。
2、词语和句子可以用无数种方式说出来。
3、音频本质上是嘈杂且非结构化的。由于房间音调、混响和录音条件的性质等因素,相同的声音可能会因环境而异。TTS系统,至少在某种程度上,需要复制这些因素来听起来像我们习惯听到的声音。
文本转换为语音涉及两个主要步骤
1、文本转换
首先确定要表达什么意思,然后计算机分析文本以确定如何根据上下文说出每个词语。相同的书面文本可以有多种含义和发音,因此计算机必须弄清楚它要说什么,以防止输出时出现歧义。
计算机从词语文本中提取信息,并作出相应的发音。听起来是不是很简单,但在实践中会很复杂。因为语调、节奏和语速会根据文本中的提示而变化。
2、声音制作
计算机将音素转换为声音的方法
1、使用录音
语音合成器使用录音中记录的人类语音片段,然后将它们重新排列生成单词。目前除了苹果的Siri之外,几乎没有其他现代TTS系统在使用这种方法。”
2、使用计算机生成的声音
计算机使用基本声音频率生成音频以此来模仿人类的声音,就像乐器一样。这种方法可以让语音合成器说出任何内容,包括外来词甚至不存在的词。
随着技术的发展,机器学习已经彻底改变了语音合成器,模糊了人类录音和计算机生成的声音之间的界限。