获取声音：新的语音合成技术可以让罗杰·艾伯特的声音更像他自己

为这位影评人创造更真实声音的方法将尝试结合两种流程：单元选择和隐马尔可夫模型语音合成系统

在2006年罗杰·艾伯特因癌症手术后的气管切开术而失去说话能力后，这位影评人通过便利贴、富有表现力和幽默的手势以及他的Mac笔记本电脑合成器进行交流。2009年在他年度电影节上朗读预先输入介绍的版本带有英国人可能称之为“柔和”的上流社会英语口音。艾伯特和他的妻子查兹称之为“劳伦斯爵士”，此后不久便将其替换为一个更易于接受的美国口音的声音，称为“亚历克斯”。明年，艾伯特的声音可能会更像他自己，这要归功于爱丁堡公司CereProc（脑处理的缩写，发音为“serra-prock”）正在进行的个性化语音工作。

艾伯特大量的媒体录音——尤其是长期播出的电视连续剧《电影评论》——让许多人提出了类似的想法。在他的自传《人生如戏：回忆录》（Grand Central Publishing）中，该书于9月13日发行，艾伯特说成本太高，直到他发现专门研究地区口音的CereProc公司为其他人建立了个性化语音。该公司从找到的音频样本构建的乔治·W·布什和阿诺德·施瓦辛格的网络版本似乎很有希望。

构建语音合成器的传统方法（单元选择）涉及精确转录数小时的录音，并将其分解为工程师称为“音素”的小片段，这些片段可以以不同的组合重新拼接在一起。然而，拼接并不总是平滑的，会产生可听见的伪影。

支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。购买订阅有助于确保有关当今世界发现和塑造我们世界的有影响力故事的未来。

CereProc的首席技术官马修·艾利特说：“过去10年里的很多工程工作都是关于如何阻止这种伪影的。” “一种方法是让这个人以更无聊的方式说话——当变化较少时，就更容易连接。因此，这不可避免地意味着在传统的语音合成社区中，声音听起来真的很无聊。”对于读出银行余额来说，这足够了。但他补充说，“如果你想读出整段文字或更长的段落，它会让人感到非常疲惫。”

CereProc最棘手的问题是找到好的音频。单元选择的技术限制很简单：输入垃圾，输出垃圾。艾伯特在他的电影评论节目中谈了很多，但经常被打断，而且通常在他身后播放电影。他的DVD评论的原声更好，但他的兴奋和投入使得大部分内容无法使用。

艾利特说：“如果他更无聊和愚蠢，情况会更容易。” 其他技术困难源于不同的麦克风、设备和房间声音。“你可以在第一个版本中听到句子中间的变化。”

未来，CereProc希望使个性化合成器具有可扩展性，即自动化其创建过程。一种称为隐马尔可夫模型语音合成系统 (HTS) 的新方法会创建捕获的声音随时间推移的统计模型，然后反转该模型以产生语音。艾利特将这个过程比作渲染图形。

HTS 有几个优点。它对噪声和转录错误具有更高的容忍度，并且需要更少的输入。

艾利特说：“目前这个系统的问题是，输出听起来有点像 1990 年代的合成声音。” 但他认为语音构建必须更有效率。“我们希望提供一项 Web 服务，让人们可以录制自己的声音并自动获得声音，”他说。音频质量不会那么好，但对于大多数用途而言，它只需要能够理解即可。

然而，艾伯特希望获得广播质量，这是一个更艰巨的挑战，这促使 CereProc 考虑采用一种混合方法，即使用 HTS 模型在存储的音素中进行选择，只生成数据库中缺失或表示不佳的较不常见的音素。

艾利特说：“有像他这样杰出的人物[作为测试用例]真是太好了，它推动了我们的技术进步，并使其他人更容易看到这是可以做到的。”他内心的工程师被激发了：“我只想解决这个问题。”去年在《奥普拉》节目中首次亮相了一小部分正在进行的工作，但完成版本的日期仍不确定。

键入语音所需的时间仍然会阻碍实时对话。艾利特说：“当你意识到你所竞争的对象是一张便利贴时，作为一名工程师，你会真正感到谦卑。”

当艾伯特的新声音投入使用时，最后一个问题才会得到解答。它会引发“恐怖谷”效应吗？也就是说，人们对与人类相似程度不正确的机器人产生厌恶感？

艾伯特通过电子邮件说：“我怀疑这是否会成为问题，但如果真是这样，我很乐意接受。”