让计算机说话

告别生硬的电子对话：新的合成语音系统听起来像真人一样，并且可以实时响应

如今，您拨打银行或航空公司的电话，很可能接听您电话的是预先录制的声音，而不是真人。通过将几个预先录制的短语串联在一起，这些系统在成功完成银行业务或订票交易方面做得相当不错。尽管这种拼凑起来的语音听起来很生硬，但这些系统足以处理主题事先已知的有限交易。但是，由于它们无法偏离预先录制的短语，因此它们的功能受到限制。

IBM 的合成语音研究人员一直在解决一个更严峻的挑战：让计算机说出真人能说的任何话，并以自然的声音说出来。（单击此处收听示例。）例如，我们开发了可以“读取”突发新闻或通过电话大声朗读一堆电子邮件的系统。与当前的短语拼接系统一样，我们的最新系统，称为 Supervoices，也基于人类说话者的录音，并且可以实时响应。但不同之处在于，它们可以发出任何声音——包括原始说话者从未说过的听起来很自然的词语。（尝试在此处键入您的短语。）

这项技术的直接用途是什么？它们包括提供最新的新闻、为残疾人提供的阅读机器、汽车语音控制以及通过电话检索电子邮件——或任何词汇量大、内容频繁或不可预测地变化且视觉显示不实用的系统。未来，Supervoices 可以增强视频和电脑游戏、手持设备甚至电影制作。IBM 于 2002 年底发布了最新一代的商业用途技术。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。

与我交谈

自 1700 年代后期以来，科学家们就试图模拟人类语音，当时沃尔夫冈·冯·肯佩伦建造了一台“说话机”，该机器使用一系列精巧的风箱、簧片、哨子和共鸣室来产生基本的词语。到 1970 年代，数字计算使得第一代现代文本转语音系统得以广泛使用。这些系统的制造商试图使用相对较少的参数直接对整个语音生成过程进行建模。结果是语音清晰易懂，但听起来有些像机器人。1990 年代后期，更快的计算机和廉价的数据存储使得当今最先进的合成语音成为可能。它基于以下前提：语音由有限数量的语言构建块（称为音素）组成，并且可以将这些音素排列成新的序列以创建任何单词。因此，一组说话者说出所有这些构建块的录音可以作为一种排字员的案例来组装语音。

Supervoices 使用这种构建块模型。虽然我们大多数人认为语言是字母或单词，但该软件将其视为一系列音素。英语包含大约 40 个独特的音素。例如，单词“please”由四个音素组成：P、L、EE 和 Z。Supervoice 包含每个音素的录音样本集合。当要说话时，该软件会抓取将新词语拼凑在一起所需的适当样本。

语音合成从人声开始，因此我们的团队通常会试听数十位说话者，以找到适合给定任务的说话者。我们通常会寻找声音悦耳、发音清晰且没有任何明显的地区口音的人；但有时，我们可能需要其他特征用于特定的应用，例如合成带有外国口音的英语或电影中的机器人声音。获得角色的人会坐在录音室里阅读几千个句子，这需要一周多的时间来录制。之所以选择这些句子，是因为它们的语音内容多种多样，以确保我们捕捉到许多不同语境中的所有英语音素的示例。结果是几千个语音文件集合。

然后，软件将书面文本从一系列单词转换为音素。该软件会记录关于每个音素的感兴趣的特征，例如在它之前和之后出现了哪些音素，或者它是否是句子中的第一个或最后一个音素。它还识别文本中的词性，例如名词或动词。例如，如果说话者读“Welcome to my home page”，程序会将其翻译成类似

W¿ EH¿ L¿ K ¿ UH¿ M¿ T¿ OO¿ M¿ I ¿ H¿ OW¿ M¿ P¿ AY ¿ J,

除了其他内容外，还注意到“page”是一个名词，W 后面跟着 EH，而 J 是短语中的最后一个声音。

文本处理完成后，就该检查我们的声音文件了。我们测量它们的三个特征：音高、时序和响度，统称为韵律。这些参数将帮助我们稍后决定要使用哪个声音示例来合成给定的短语。音高、时序和响度是不断变化的目标，它们每时每刻都在变化。您可以将这些测量值视为沿着声音文件的一系列注释。

接下来，使用从语音识别（将语音转换为文本的听写程序）中借鉴的技术，该软件将每个录制的音素与其文本对应物相关联。在音频和文本对齐后，我们可以查看录制的语音文件，并精确地指出每个音素的开始和结束位置。这至关重要；一旦我们可以定位并标记音素，我们的软件还可以精确地编辑和编目它们，并将它们放入可搜索的数据库中。

我们的数据库平均包含每个英语音素的 10,000 个录音样本。乍一看，这似乎有很多冗余。但是这些样本差异很大，因为它们是以不同的音高说出的，并且来自不同的语音环境。例如，让我们看一下一个音素，即 OO 的声音，如“smooth”中的 OO。数据库中的一些 OO 最初后面跟着 L，如“pool”中的 OO，而另一些 OO 最初位于单词的末尾，如“shampoo”中的 OO。这些区别会改变 OO 的声音，因此会决定我们以后可以使用它的位置。

拥有所有英语音素的录音库是一回事，但是当要合成富有表现力、听起来自然的句子时，我们需要确定每个语音块应具有哪些特征。例如，说话者通常会在停顿之前放慢速度，例如当逗号出现在文本中时。因此，我们需要注意逗号前的声音的持续时间较长。在逗号之前的语音中，音高也可能较低。我们使用说话者的数据库来构建一个统计模型，该模型可以推断出该人在说话时的音高、持续时间和响度上升和下降的一般规律。统计模型会自动学习这些一般规律，并将其应用于以后，使合成语音听起来更自然。

Supervoices 的实际应用

现在我们已经“构建”了一个系统，让我们让 Supervoice 工作。Supervoice 所做的所有处理都在毫秒内发生——速度足够快，人们可以与计算机进行实时对话。首先，我们将给它一些话说，比如“Can we have lunch today?”。我们必须将单词转换为音素（Supervoices 的构建块），这使我们的句子看起来像这样

K¿¿ AE¿¿ N¿¿ W¿¿ EE¿¿ H ¿¿ AE¿¿ V¿¿ L ¿¿ UH¿¿ N ¿¿ CH¿¿ T ¿¿ OO ¿¿ D¿¿ AY

Supervoice 注意到该短语的感兴趣的特征，其中包括它是一个问题，第三个词是一个动词，并且最后一个词的第二个音节被强调。

我们将我们记录的特征输入到统计模型中。基于这些特征，它勾勒出句子应遵循的音高、时序和响度轮廓。例如，该模型应该注意到这是一个是/否问题，并在句末指定一个上升的音高。配备了此轮廓后，我们只需在数据库中查找与曲线匹配的音素。我们将音素样本挂在这个比喻的骨架上。我们应该选择哪个音素样本来合成句子的每个部分？我们的句子包含 16 个单独的音素，具有惊人的 10⁶⁴（即 10,000¹⁶）种可能的排列，太多而无法考虑。因此，我们使用一种称为动态编程的技术来有效地搜索数据库并找到最佳匹配。

一旦我们将最佳匹配的音素按行组装好，剩下的就是平滑处理。尽管我们有很多样本可供选择，并且我们已经仔细选择了它们，但在每个拼接处仍然会存在小的间断。当相邻样本的音高略有偏差时，句子最终会发出跳跃、颤抖的声音。我们通过强制进行小的音高调整来纠正它，就像木匠打磨一系列粘合的接头以创建光滑、令人愉悦的表面一样。我们实际上弯曲了每个音素的音高，使其与相邻音素的音高相匹配。结果是听起来流畅的对话语音。

未来方向

我们经常在自己内部争论文本转语音技术的圣杯。它是否应该与真人说话者无法区分，就像在图灵测试中一样？可能不是。首先，人们不会对他们可能被“欺骗”的想法感到舒服，例如当他们拨打公司的服务中心时。而且，无论如何，在某些情况下，自然的人声并不是最佳选择，例如试图引起您注意以防止您在开车时睡着的语音，或者对于卡通片、玩具以及视频和电脑游戏，这些角色可能不需要听起来像人。但是，文本转语音系统可以完成普通人无法完成的事情，例如像母语人士一样流利地说几十种语言，或者在不感到疲倦的情况下背诵整本书。

该技术更好的最终目标可能是：令人愉悦、富有表现力的语音，人们可以长时间舒适地收听而不会感到费力。或者，也许足够复杂，可以利用我们从小就培养的社交和沟通技巧。考虑以下示例

呼叫者：“我想要一张周二早上飞往波士顿的机票。”
计算机：“星期二下午我有两个航班可供选择。”

如果软件能够强调“下午”这个词，将会极大地简化交流。来电者会自然理解为上午没有航班，而计算机是在提供一个替代方案。相反，一个完全没有表达能力的系统可能会让来电者认为计算机误解了他，他很可能会重复请求。

这种表达能力是像Supervoices这样的技术仍然面临的最大挑战，即使它听起来已经非常接近真人说话。毕竟，软件并没有真正理解它在说什么，因此它可能缺乏你期望从一个八年级学生那里得到的说话风格上的细微变化，而这个学生可以理解他或她正在阅读的内容。考虑到人类声音的无限范围，我们还有很长的路要走。

安迪·艾伦、艾伦·艾德和约翰·F·皮特雷利在位于纽约州约克镇高地的IBM T.J. 沃森研究中心工作。艾伦拥有巴德学院的物理学学士学位，并将科学和媒体经验融入到他的工作中。他曾在弗朗西斯·科波拉的佐伊特洛普工作室和卢卡斯影业的天行者音响公司从事后期制作，并为数十部主要电影录制和创作音效。他的录音技巧使他来到IBM，在那里他为人类语言技术小组录制了数千种声音，以模拟人类语音的多种形式。

艾德是一位拥有麻省理工学院博士学位的电气工程师，自1995年以来一直在IBM人类语言技术小组从事语音识别和语音合成工作；在目前的职位之前，她曾在马萨诸塞州剑桥市的BBN语言技术小组工作。她的研究兴趣包括统计建模、语音识别和语音合成。她在语音识别和语音合成领域发表了许多论文并拥有多项专利。

皮特雷利在麻省理工学院攻读电气工程和计算机科学博士学位期间，研究方向包括语音识别和合成。他的研究兴趣包括语音合成、韵律、手写和语音识别、统计语言建模以及识别的置信度建模。在目前的职位之前，他曾在纽约州白原市的NYNEX科技公司的语音技术小组工作了七年，并在IBM笔技术小组担任研究人员五年。他发表了16篇论文，并拥有两项专利，另有三项专利正在申请中。