生成式人工智能的进步使得语音合成技术听起来非常逼真,以至于人们不再能区分自己是在与真人交谈还是在与深度伪造交谈。如果一个人的声音未经其同意被第三方“克隆”,恶意行为者可以利用它来发送他们想要的任何信息。
这是这项技术的另一面,这项技术可能对创建数字个人助理或虚拟形象很有用。使用深度语音软件克隆真实声音时,其潜在的滥用是显而易见的:合成声音很容易被滥用来误导他人。仅仅几秒钟的声音录音就可以用来令人信服地克隆一个人的声音。任何经常发送语音消息或在答录机上讲话的人都已经向世界提供了足够多的材料来被克隆。
圣路易斯华盛顿大学麦凯维工程学院的计算机科学家和工程师宁章开发了一种新方法,可以在未经授权的语音合成发生之前阻止它:一种名为 AntiFake 的工具。章于 11 月 27 日在丹麦哥本哈根举行的计算机协会计算机与通信安全会议上就此进行了演讲。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续报道关于塑造我们当今世界的发现和想法的具有影响力的故事。
检测深度伪造的传统方法只有在损害已经造成后才生效。而 AntiFake 则可以防止将语音数据合成为音频深度伪造。该工具旨在以其人之道还治其人之身来击败数字造假者:它使用与网络犯罪分子用于声音克隆的技术类似的技术,实际上是为了保护声音免受盗版和伪造。AntiFake 项目的源代码文本可免费获取。
反深度伪造软件旨在使网络犯罪分子更难获取语音数据并提取录音中对语音合成重要的特征。“该工具使用了一种对抗性人工智能技术,这种技术最初是网络犯罪分子的工具箱的一部分,但现在我们用它来防御他们,”章在会议上说。“我们只是稍微弄乱了录制的声音信号,稍微扭曲或扰乱它,使其对人类听众来说仍然听起来正常”——同时使其无法用于训练声音克隆。
类似的方法已经存在于互联网作品的版权保护中。例如,对人眼来说仍然看起来自然的图像可能具有机器无法读取的信息,因为图像文件存在不可见的破坏。
例如,名为 Glaze 的软件旨在使图像无法使用于大型人工智能模型的机器学习,并且某些技巧可以防止照片中的面部识别。“AntiFake 确保当我们把语音数据发布到网上时,犯罪分子很难利用这些信息来合成我们的声音并冒充我们,”章说。
正如目前全球范围内针对公司、基础设施和政府的自动化网络攻击增加所见,攻击方法正在不断改进并变得更加复杂。为了确保 AntiFake 能够尽可能长时间地跟上不断变化的深度伪造环境,章和他的博士生于志远以这样一种方式开发了他们的工具,使其经过训练可以预防各种可能的威胁。
章的实验室针对五种现代语音合成器测试了该工具。研究人员表示,即使是针对它并非专门设计的未知商业合成器,AntiFake 也实现了 95% 的保护率。章和于还与来自不同人群的 24 名人类测试参与者一起测试了他们工具的可用性。要进行具有代表性的比较研究,还需要进行进一步的测试和更大的测试组。
芝加哥大学计算机科学教授 Ben Zhao 没有参与 AntiFake 的开发,他说,像所有数字安全系统一样,该软件永远无法提供完全的保护,并且将受到欺诈者持续不断的创造力的威胁。但是,他补充说,它可以“提高门槛,并将攻击限制在一小部分拥有大量资源的高度积极的个人。”
“攻击越困难、越具挑战性,我们听到的关于声音模仿诈骗或深度伪造音频剪辑在学校被用作欺凌手段的案例就越少。这是这项研究的一个伟大成果,”赵说。
AntiFake 已经可以保护较短的录音免受冒充,这是网络犯罪分子伪造最常用的手段。该工具的创建者认为,它可以扩展到保护更大的音频文档或音乐免受滥用。目前,用户必须自己完成此操作,这需要编程技能。
章在会议上表示,目的是充分保护录音。如果这成为现实,我们将能够利用人工智能在安全关键应用中的一个主要缺点来对抗深度伪造。但是,开发的方法和工具必须不断适应,因为网络犯罪分子必然会学习并与它们一起成长。
本文最初发表于《Spektrum der Wissenschaft》,经许可转载。