新型 AI 技术可以模仿任何声音

语音生成领域的新兴技术引发伦理和安全担忧

即使是最自然的电脑合成声音——无论是苹果的 Siri 还是亚马逊的 Alexa——听起来仍然像电脑。位于蒙特利尔的初创公司 Lyrebird 正试图改变这种状况，他们开发了一种人工智能系统，通过分析语音录音和相应的文本记录，以及识别它们之间的关系，来学习模仿人的声音。Lyrebird 的语音合成技术于上周推出，每秒可以生成数千个句子——速度明显快于现有方法——并且可以模仿几乎任何声音，这一进步引发了关于该技术可能被如何使用和滥用的伦理问题。

生成自然发声的语音长期以来一直是计算机程序将文本转换为口语的核心挑战。人工智能 (AI) 个人助理，如 Siri、Alexa、微软的 Cortana 和 Google Assistant，都使用文本转语音软件来创建更方便的用户界面。这些系统的工作原理是将来自特定声音的预录文件中的单词和短语拼接在一起。切换到不同的声音——例如让 Alexa 听起来像个男人——需要一个新的音频文件，其中包含设备可能需要与用户交流的每个可能的单词。

Lyrebird 的系统可以通过收听数小时的口语音频来学习任何声音中字符、音素和单词的发音。从那里，它可以推断生成全新的句子，甚至添加不同的语调和情感。Lyrebird 方法的关键是人工神经网络——它使用旨在帮助它们像人脑一样运作的算法——它依赖于深度学习技术将声音片段转换为语音。神经网络接收数据，并通过加强分层神经元样单元之间的连接来学习模式。

支持科学新闻事业

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和思想的具有影响力的故事。

在学习如何生成语音后，该系统可以仅基于某人一分钟的语音样本来适应任何声音。“不同的声音共享大量信息，”Lyrebird 的联合创始人 Alexandre de Brébisson 说，他是蒙特利尔大学蒙特利尔学习算法实验室的博士生。“在学习了几位说话者的声音之后，学习一个全新的说话者的声音要快得多。这就是为什么我们不需要那么多数据来学习一个全新的声音。更多的数据肯定会有帮助，但一分钟足以捕捉到很多声音的‘DNA’。”

Lyrebird 展示了其系统，使用了美国政治人物唐纳德·特朗普、巴拉克·奥巴马和希拉里·克林顿的声音，合成了一段关于这家初创公司本身的对话。该公司计划将该系统出售给开发人员，用于广泛的应用，包括个人 AI 助手、有声读物旁白和残疾人士的语音合成。

去年，谷歌旗下的公司 DeepMind 公布了其自己的语音合成系统，名为 WaveNet，该系统通过收听数小时的原始音频来学习，以生成类似于人声的声波。然后，它可以用类似人声的声音朗读文本。Lyrebird 和 WaveNet 都使用深度学习，但底层模型不同，de Brébisson 说。“Lyrebird 在生成时间上明显快于 WaveNet，”他说。“我们可以在一秒钟内生成数千个句子，这对于实时应用程序至关重要。Lyrebird 还增加了快速复制声音的可能性，并且与语言无关。”《大众科学》联系了 DeepMind，但被告知 WaveNet 团队成员无法置评。

然而，Lyrebird 的速度是有代价的。Timo Baumann 是一位在卡内基梅隆大学语言技术研究所从事语音处理研究的研究员，他没有参与这家初创公司，他指出 Lyrebird 生成的声音带有嗡嗡声和微弱但明显的机器人光泽。此外，它不会生成呼吸声或嘴部运动声，这些声音在自然说话中很常见。“像咂嘴声和吸气声在对话中很重要。它们实际上带有含义，并且可以被听众观察到，”Baumann 说。他补充说，这些缺陷使得可以将计算机生成的语音与真实语音区分开来。他补充说，技术还需要几年才能达到能够实时令人信服地复制声音的程度。

尽管如此，对于未经训练的耳朵和毫无戒心的人来说，AI 生成的音频片段可能看起来是真实的，从而引发关于冒充的伦理和安全担忧。这种技术也可能混淆和破坏基于语音的验证系统。另一个担忧是，它可能使在法庭上用作证据的语音和视频录音变得不可用。一种可以用来快速操纵音频的技术甚至会质疑直播中实时视频的真实性。在假新闻时代，它只会加剧识别信息来源的现有问题。“可能仍然可以找出音频何时被篡改，”Baumann 说，“但我不认为每个人都会检查。”

配备类似人声的系统的也可能构成不太明显但同样成问题的风险。例如，用户可能比他们应该的更信任这些系统，泄露个人信息或接受来自设备的购买建议，将其视为朋友而不是属于公司并服务于其利益的产品。“与文本相比，声音对我们来说更加自然和亲切，”Baumann 说。

Lyrebird 承认这些担忧，并在公司网站上的简短“伦理”声明中发出了警告。Lyrebird 警告公众，该软件可能被用来操纵在法庭上用作证据的录音，或冒充他人的身份。“我们希望每个人很快都会意识到这种技术的存在，并且复制他人的声音是可能的，”该网站称。

正如人们已经了解到在 Photoshop 时代照片不能完全信任一样，他们可能需要习惯语音可以伪造的想法。哈佛大学肯尼迪政府学院的 सुरक्षा 技术专家和讲师 Bruce Schneier 说，目前还没有办法阻止该技术被用来制作欺诈性音频。他说，遇到假音频片段的风险现在已成为“新现实”。