AI音频深度伪造技术迅速超越检测技术

一段据称包含种族歧视言论的录音例证了我们新AI常态所面临的挑战

Illustration, artist concept, robot creating audiowave

专家们长期以来一直警告说,人工智能将使人们无法区分数字事实和虚构的未来。现在,这个未来已经到来。最近发生的一起录音事件,听起来像是一位高中校长发表种族歧视言论,表明了广泛可用的生成式AI工具可能带来的风险以及检测其使用的难度。

这段冒犯性的音频片段,听起来像是一位马里兰州巴尔的摩县的学校校长的声音,上周被发布在社交媒体上。它迅速在网上 распространилась, затем попала в местные и национальные новости. 但该片段尚未得到证实,据多家媒体报道,一位工会发言人声称它是人工智能生成的。据报道,巴尔的摩县公立学校正在调查此事

这并非首次出现可能具有破坏性的录音的真实性受到质疑的情况。也不是第一次有人制作深度伪造视频并使其在网上疯传。但大多数案例都涉及著名的公众人物,例如俄罗斯总统弗拉基米尔·普京或美国总统乔·拜登——而不是高中校长。就在本周,新罕布什尔州出现了一系列自动语音电话,伪造拜登的声音,试图阻止人们参与该州的初选。生成式人工智能的近期爆发意味着,比以往任何时候都有更多的人有能力制作出令人信服的伪造品。社会可能严重 unprepared to应对由此产生的不可避免的数字欺诈浪潮,以及任何媒体项目都可能是欺诈性的潜在暗示。


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。


《大众科学》采访了加州大学伯克利分校的计算机科学教授哈尼·法里德,他研究数字取证和媒体分析。法里德开发了用于深度伪造检测的工具,可以分析 音频、图像和视频。

[以下是采访的编辑稿。]

您对巴尔的摩县公立学校的案件有何看法?

这是一个非常引人入胜的故事。

我使用我们的一些工具分析了这段音频,这些工具尚未公开。我认为这段音频很可能是人工智能生成的——但并非确定。我们的[自动化]模型,经过训练可以区分真实音频和人工智能生成的音频,将这段音频归类为人工智能生成的音频。我还[手动]分析了音频的频谱图,在五个不同的时间点,频谱图显示出明显的数字拼接迹象;这可能是几个单独的片段被分别合成然后组合的结果。

总的来说,我认为证据表明这段音频是假的。但在做出最终决定之前,我们需要了解更多信息。

找出音频录音是否真实的最佳方法是什么?您希望在调查录音的真实性时发生什么?

我希望在任何调查中看到的是多管齐下的方法。首先,[调查人员]应该与多位专家交谈,我们都应该进行分析。第二点是,我认为我们需要更多地了解所质疑内容的来源。它在哪里录制的?何时录制的?谁录制的?谁将其泄露给最初发布它的网站?

[如果存在明显的拼接或编辑迹象],我想知道原因。可能是当时正在进行对话,有人剪辑了音频以保护身份或缩短片段。但另一种解释可能是,多个AI片段被拼凑在一起,使其听起来像一个句子。人工智能生成技术在短片段上的效果往往比长片段好。

目前创建令人信服的音频深度伪造技术有多容易?

这很简单。你只需要大约一到两分钟的某人的声音。有些服务每月收费5美元[让你]上传你的参考音频并克隆声音。然后你可以输入文字并在几秒钟内获得令人信服的音频。这是文本到语音。

还有第二种方法叫做语音到语音。我录制一个人的声音并克隆他们的声音。然后我录制自己说我想让他们说的话,带着所有的语调——包括脏话——它把我的声音转换成他们的声音。这都是相同的底层生成式人工智能技术。

对于这两种方法,任何人都可以做到这一点。没有任何入门门槛或技术技能要求。

那么您如何描述识别人工智能生成的音频所需的技能水平?

非常高。这里存在巨大的不对称性——部分原因是制造假东西可以赚很多钱,但检测假东西赚不了多少钱。

检测也更难,因为它很微妙;它很复杂;标准总是在不断提高。我可以一只手就数得过来世界上能够以可靠方式做到这一点的实验室数量。这令人不安。

目前是否有任何公开可用的深度伪造检测工具?

没有足够可靠的。我不会使用它们。风险太高了,不仅关系到个人的生计和声誉,还关系到每个案例设定的先例。我们必须谨慎地裁决这些事情。

您认为人工智能音频和其他深度伪造技术的未来会走向何方?

想象一下,巴尔的摩县的这起事件是一个高中生对他们的校长感到愤怒并做了这件事的故事——这是有可能的。想象一下,这种威胁现在适用于这个国家的每一位教师、校长、行政人员和老板。不再仅仅是乔·拜登和斯嘉丽·约翰逊这样的人面临风险。你不再需要花费数小时的时间来获取某人的声音或图像来创建深度伪造品。

我们知道这种情况会发生。这不是是否会发生的问题——而是何时发生的问题。现在技术已经到来。但这不仅仅是一个生成式人工智能的故事。这是一个社交媒体的故事。这是一个主流媒体的故事。你必须从整个生态系统的角度来看待这个问题,我们每个人都在其中扮演着角色。我讨厌那些在没有审查音频的情况下就急于发布校长故事的媒体。我们需要做得更好。

在网上阅读、看到和听到的东西越来越难以相信。这令人担忧,既因为你将看到人们成为深度伪造技术的受害者,也因为会有人会虚假地声称“人工智能辩护”以逃避责任。

想象一下,每次发生这种情况,我们都必须花费三天时间来弄清楚发生了什么。这是不可扩展的。我们可以在少数情况下进行分析,但如果这种情况每天发生,每天发生多次呢?这令人担忧。

我们一直在讨论最近这起可能的深度伪造事件的舆论法庭。但是,在实际的法律案件中呢?在法庭上,音频和视频的认证方式是否有任何法律先例?

我确实认为我们将不得不改变在法庭上考虑证据的方式。好消息是,在实际的法庭上——与社交媒体或舆论不同——有专门的时间进行分析。我从司法系统的缓慢运转中获得了一些安慰。

不过,一个重要的悬而未决的法律问题是,这些人工智能公司对公众负有什么责任。为什么公司可以在基本上没有护栏的情况下提供这些人工智能服务?深度伪造技术不是生成式人工智能的意外后果;这是可以预见的。但直到目前为止,许多公司只是认为他们的利润比防止伤害更重要。我认为应该有某种方式追究公司的责任。也许,受深度伪造技术影响的人应该能够起诉制造该产品的公司。

责任不是一个完美的制度,但它以前曾保护消费者免受有缺陷和危险的技术的侵害。这是汽车现在比过去安全得多的部分原因。我不认为人工智能公司应该获得豁免。

© . All rights reserved.