关于 超人人工智能 (AI) 的讨论愈演愈烈。但研究揭示了最成功的 AI 系统之一——一个可以下围棋并击败世界上最优秀人类棋手的机器人——的弱点,表明这种优越性可能很脆弱。这项研究引发了人们的疑问,即更通用的 AI 系统是否会遭受可能损害其安全性、可靠性,甚至损害其“超人”声誉的漏洞。
伊利诺伊大学厄巴纳-香槟分校的计算机科学家 Huan Zhang 说:“这篇论文对如何实现构建人们可以信任的强大现实世界 AI 代理这一雄心勃勃的目标提出了一个重要的问号。” 剑桥市马萨诸塞理工学院的计算机科学家 Stephen Casper 补充说:“它提供了迄今为止最有力的证据,表明使先进模型稳健地按预期运行是困难的。”
这项分析于 6 月以预印本形式在线发布,尚未经过同行评审,它利用了所谓的对抗性攻击——向 AI 系统输入 旨在提示系统犯错 的输入,无论是出于研究目的还是恶意目的。例如,某些提示可以“越狱”聊天机器人,使其泄露它们被训练要抑制的有害信息。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。
在围棋中,两位玩家轮流在棋盘上放置黑白棋子,以包围和捕获对方的棋子。 2022 年,研究人员报告称,他们 训练了对抗性 AI 机器人来击败 KataGo,这是最好的开源围棋 AI 系统,它通常轻松(且无需人手)击败最优秀的人类。 他们的机器人发现了经常击败 KataGo 的漏洞,即使这些机器人本身并不是很优秀——人类业余棋手也能击败它们。 更重要的是,人类可以理解机器人的技巧并采用它们来击败 KataGo。
利用 KataGo
这是一次性的事件,还是这项工作指出了 KataGo 的一个根本弱点——以及,从广义上讲,其他具有看似超人能力的 AI 系统的弱点? 为了调查,由加利福尼亚州伯克利市非营利研究组织 FAR AI 的首席执行官兼 2022 年论文的合著者 Adam Gleave 领导的研究人员,使用对抗性机器人测试了三种防御围棋 AI 免受此类攻击的方法。
第一种防御措施是 KataGo 开发人员在 2022 年攻击后已经部署的一种:向 KataGo 提供攻击中涉及的棋盘位置示例,并让它与自己对弈,以学习如何对抗这些位置。 这类似于它更广泛地自学下围棋的方式。 但最新论文的作者发现,对抗性机器人可以学会击败甚至这个更新版本的 KataGo,胜率高达 91%。
Gleave 团队尝试的第二种防御策略是迭代的:训练一个版本的 KataGo 对抗对抗性机器人,然后训练攻击者对抗更新后的 KataGo,依此类推,共进行九轮。 但这也没有产生一个无法击败的 KataGo 版本。 对抗者不断找到漏洞,最终的漏洞击败 KataGo 的概率为 81%。
作为第三种防御策略,研究人员从头开始训练了一个新的围棋 AI 系统。 KataGo 基于一种称为卷积神经网络 (CNN) 的计算模型。 研究人员怀疑 CNN 可能过于关注局部细节而忽略全局模式,因此他们使用一种替代的 神经网络(称为视觉Transformer (ViT))构建了一个围棋玩家。 但他们的对抗性机器人发现了一种新的攻击,帮助它在与 ViT 系统的对抗中赢得了 78% 的时间。
弱对抗者
在所有这些案例中,对抗性机器人——尽管能够击败 KataGo 和其他顶级围棋系统——经过训练是为了发现其他 AI 中的隐藏漏洞,而不是成为全面的战略家。 “对抗者仍然很弱——我们自己已经相当容易地击败了他们,”Gleave 说。
并且由于人类能够使用对抗性机器人的战术来击败专家级围棋 AI 系统,那么将这些系统称为超人是否仍然有意义? “这是一个我肯定纠结过的好问题,”Gleave 说。 “我们已经开始说‘通常是超人’。” 纽约市的计算机科学家 David Wu 是 KataGo 的首位开发者,他说强大的围棋 AI“平均而言是超人”,但“在最坏的情况下不是超人”。
Gleave 说,这些结果可能对 AI 系统产生广泛的影响,包括 构成 ChatGPT 等聊天机器人基础的大型语言模型。 “AI 的关键要点是这些漏洞将难以消除,”Gleave 说。 “如果我们在围棋这样的简单领域都无法解决这个问题,那么在短期内,似乎不太可能修补 ChatGPT 中类似越狱的问题。”
Zhang 说,这些结果对于创造全面超越人类能力的 AI 的可能性意味着什么尚不清楚。 “虽然这表面上可能表明,在一段时间内,人类可能仍然比 AI 保持重要的认知优势,”他说,“但我认为最关键的结论是 我们并不完全了解我们今天构建的 AI 系统。”
本文经许可转载,并于 2024 年 7 月 8 日首次发表。