科技公司应对 AI 内容危机的新方案还不够完善

从大学抄袭到网络犯罪诈骗,生成式 AI 正在侵蚀人们对在线内容的信任。数字水印并非解决问题的快速方案

Green binary code in a 3-dimensional wave pattern on black background

得益于大量易于访问的在线工具,现在几乎任何拥有计算机的人只需单击按钮,即可生成人工智能生成的图像、文本、音频和视频,这些内容足以令人信服地模仿人类创作的内容。由此产生的一个重大结果是在线内容危机,即大量且不断增长的未经检查的机器生成材料充斥网络,这些材料可能包含危险的错误、虚假信息和犯罪诈骗。这种情况使得安全专家、监管机构和普通民众都在争先恐后地寻找一种方法来区分人工智能生成的产品和人类作品。目前的人工智能检测工具非常不可靠。甚至 ChatGPT 背后的公司 OpenAI 最近也将其人工智能文本识别器下线,因为该工具非常不准确。

现在,另一种潜在的防御措施正在受到关注:数字水印,即在每件人工智能生成的内容中插入不可磨灭的、隐蔽的数字签名,以便可以追溯来源。上个月底,拜登政府宣布,七家美国人工智能公司自愿签署了八项风险管理承诺清单,其中包括承诺开发“强大的技术机制,以确保用户知道内容何时是人工智能生成的,例如水印系统。” 最近通过的欧盟法规要求科技公司努力区分其人工智能输出与人类作品。水印旨在控制正在进行的机器学习热潮的“狂野西部”局面。这只是第一步——而且是很小的一步——与生成式人工智能的风险相比,相形见绌。

将人类创作与机器生成混淆会带来许多后果。“假新闻”在线上存在了几十年,但人工智能现在使内容工厂能够在几分钟内发布海量的误导性图像和文章,堵塞搜索引擎和社交媒体信息流。诈骗信息、帖子,甚至电话或语音邮件的生成速度也比以往任何时候都快。学生、不择手段的科学家和求职者可以生成作业、数据或申请,并将其冒充为自己的作品。与此同时,不可靠的有偏见的人工智能生成内容检测过滤器可能会欺骗教师、学术评审员和招聘经理,导致他们做出不诚实的错误指控。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续报道关于发现和塑造我们当今世界的想法的具有影响力的故事。


公众人物现在可以依赖深度伪造的可能性——即使用人工智能制作视频使某人看起来在说或做某事——来试图逃避他们真正说过和做过的事情的责任。在最近一起关于驾驶员死亡的诉讼文件中,电动汽车公司特斯拉的律师试图声称,其首席执行官埃隆·马斯克在一段真实的 2016 年录音中发表了关于自动驾驶汽车安全性的毫无根据的言论,这段录音可能是一个深度伪造。生成式人工智能甚至可能“毒害”自身,因为互联网庞大的数据宝库——人工智能依赖它进行训练——正日益被劣质内容污染。由于所有这些原因以及更多原因,将机器人与真实事物区分开来变得越来越重要。

现有的 AI 检测器作用不大。“是的,它们不起作用,”柏林工程与经济应用科技大学的计算机科学家兼抄袭研究员德博拉·韦伯-伍尔夫 (Debora Weber-Wulff) 说。在 6 月份发布的一项预印本研究中,韦伯-伍尔夫和她的合著者评估了 12 种旨在检测人工智能生成文本的公开可用工具。他们发现,即使在最宽松的假设条件下,最好的检测器在识别机器人编写的文本时,准确率也低于 80%——而且许多检测器只相当于抛硬币的水平。所有检测器都具有很高的误报率,并且当给定人类轻微编辑过的人工智能编写的内容时,所有检测器的能力都会大大降低。在假图像检测器中也注意到了类似的不一致性。

滑铁卢大学数据安全专业计算机科学家弗洛里安·克什鲍姆 (Florian Kerschbaum) 说,水印“几乎是我们可用的为数不多的技术替代方案之一”。“另一方面,这项技术的结果并不像人们可能认为的那样确定。我们无法真正预测我们将能够达到什么样的可靠性水平。” 创建水印系统存在严重的、尚未解决的技术挑战——专家们一致认为,仅靠这样一个系统无法完成管理虚假信息、防止欺诈和恢复人们信任的艰巨任务。

将数字水印添加到人工智能生成的内容中并不像在照片上叠加可见的版权信息那么简单。为了对图像和视频进行数字标记,可以随机稍微调整小簇像素的颜色,以嵌入一种条形码——这种条形码可以被机器检测到,但对大多数人来说实际上是不可见的。对于音频材料,类似的追踪信号可以嵌入到声波中。

加州大学伯克利分校数字取证专业计算机科学家哈尼·法里德 (Hany Farid) 表示,文本构成了最大的挑战,因为它是数据密度最低的生成内容形式。然而,即使是文本也可以添加水印。今年早些时候发表在《机器学习研究进展》杂志上的一项研究中概述了一种提议的协议,该协议采用了文本生成大型语言模型可用的所有词汇,并随机将其分为两个框。根据该研究方法,开发人员对其人工智能生成器进行编程,使其稍微偏爱其中一组单词和音节。由此产生的水印文本包含明显更多的来自一个框的词汇,以便可以扫描和识别句子和段落。

在这些技术中的每一种技术中,水印的确切性质都必须对用户保密。用户不能知道哪些像素或声波已被调整,或者如何进行调整。人工智能生成器偏爱的词汇也必须隐藏起来。法里德说,有效的人工智能水印必须对人类不可察觉,以避免被轻易删除,他没有参与这项研究。

还有其他困难。“这变成了一个巨大的工程挑战,”克什鲍姆说。水印必须足够强大,能够承受一般的编辑以及对抗性攻击,但它们又不能具有破坏性,以至于明显降低生成内容的质量。构建用于检测水印的工具也需要保持相对安全,以防止不良行为者使用它们来逆向工程水印协议。与此同时,这些工具需要足够易于访问,以便人们可以使用它们。

理想情况下,所有广泛使用的生成器(例如 OpenAI 和 Google 的生成器)都应共享一个水印协议。克什鲍姆指出,这样一种人工智能工具就不能轻易地用来撤消另一种人工智能工具的签名。然而,让每家公司都加入协调这项工作将是一场斗争。而且,任何水印程序都不可避免地需要不断监控和更新,因为人们会学会如何规避它。将所有这些都委托给最初负责仓促推出人工智能的科技巨头,前景令人担忧。

开源人工智能系统也面临其他挑战,例如图像生成器 Stable Diffusion 或 Meta 的语言模型 LLaMa,任何人都可以修改它们。从理论上讲,编码到开源模型参数中的任何水印都可以轻松删除,因此需要采用不同的策略。法里德建议通过训练数据而不是可变的参数将水印构建到开源人工智能中。“但这个想法的问题在于它有点太迟了,”他说。未经水印训练的开源模型已经存在,正在生成内容,而重新训练它们也不会消除旧版本。

最终,构建一个万无一失的水印系统似乎是不可能的——《大众科学》就此主题采访的每位专家都表示,仅靠水印是不够的。在谈到虚假信息和其他人工智能滥用时,法里德说,水印“不是一种消除策略”。“这是一种缓解策略。” 他将水印比作锁房子的前门。是的,窃贼可能会用重物砸开门,但锁仍然增加了一层保护。

其他层也在工作中。法里德指出了内容来源和真实性联盟 (C2PA),该联盟创建了一个技术标准,正在被包括微软和 Adobe 在内的许多大型科技公司采用。尽管 C2PA 指南确实建议使用水印,但它们也呼吁建立一个分类账系统,该系统记录每件人工智能生成的内容,并使用元数据来验证人工智能制作和人类制作作品的来源。元数据对于识别人类制作的内容尤其有帮助:想象一下,一部手机相机在用户拍摄的每张照片和视频的隐藏数据中添加一个认证印章,以证明它是真实的素材。另一种安全因素可能来自改进事后检测器,这些检测器寻找人工智能生成的意外伪影。社交媒体网站和搜索引擎也可能面临越来越大的压力,需要加强其审核策略,并过滤掉最糟糕的误导性人工智能材料。

尽管如此,这些技术修复并没有解决在线信任危机、虚假信息和操纵的根本原因——这些原因在当前这一代生成式人工智能出现之前就已经存在。斯坦福大学研究机器学习的计算机科学家詹姆斯·邹 (James Zou) 说,在人工智能驱动的深度伪造出现之前,擅长 Photoshop 的人可以操纵照片来展示他们想要的几乎任何东西。电视和电影制片厂经常使用特效来令人信服地修改视频。即使是逼真的画家也可以手工创作出欺骗性的图像。生成式人工智能只是提高了可能性的规模。

韦伯-伍尔夫说,人们最终将不得不改变他们获取信息的方式。教授信息素养和研究技能从未像现在这样重要,因为使人们能够批判性地评估他们在线和线下看到的内容的背景和来源是必要的。“这是一个社会问题,”她说。“我们无法用技术解决社会问题,完全不能。”

© . All rights reserved.