今天的人工智能聊天机器人内置了限制,以防止它们向用户提供危险信息,但一项新的预印本研究表明,如何让人工智能互相欺骗,从而泄露这些秘密。研究人员在研究中观察到,目标人工智能违反规则,提供关于如何合成甲基苯丙胺、制造炸弹和洗钱的建议。
现代聊天机器人有能力通过伪装成特定人格或扮演虚构角色来采用角色扮演。这项新研究利用了这种能力,要求特定的人工智能聊天机器人充当研究助理。然后,研究人员指示这位助理帮助开发提示,以“越狱”其他聊天机器人——摧毁编码到这些程序中的护栏。
研究助理聊天机器人的自动化攻击技术被证明对 GPT-4(ChatGPT 的大型语言模型 (LLM) 之一)的成功率达到 42.5%。 对 Claude 2(Anthropic 聊天机器人的基础模型)的成功率为 61%,对 Vicuna(一款开源聊天机器人)的成功率为 35.9%。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您将帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的重要故事。
该研究的合著者、人工智能安全公司 Harmony Intelligence 的创始人索鲁什·普尔说:“作为一个社会,我们希望意识到这些模型的风险。” “我们想表明这是可能的,并向世界展示我们当前这一代 LLM 面临的挑战。”
自从基于 LLM 的聊天机器人向公众开放以来,有进取心的恶作剧者已经能够越狱这些程序。 通过向聊天机器人提出正确的问题,人们之前已经说服机器忽略预设规则并提供犯罪建议,例如凝固汽油弹的配方。 随着这些技术被公开,人工智能模型开发者竞相修补它们——一场猫捉老鼠的游戏,需要攻击者提出新的方法。 这需要时间。
但研究人员表示,让 AI 制定策略来说服其他 AI 忽略其安全护栏,可以将这个过程加速 25 倍。 跨不同聊天机器人的攻击成功表明,这个问题超越了个别公司的代码。 这种漏洞似乎是人工智能聊天机器人更广泛的设计中固有的。
OpenAI、Anthropic 和 Vicuna 背后的团队被联系以对该论文的发现发表评论。 OpenAI 拒绝置评,而 Anthropic 和 Vicuna 在出版时未作出回应。
该研究的另一位合著者鲁谢布·沙阿说:“在目前的情况下,我们的攻击主要表明我们可以让模型说出 LLM 开发者不希望它们说的话。” “但随着模型变得更加强大,这些攻击变得危险的可能性可能会增加。”
普尔说,挑战在于角色扮演“是这些模型非常核心的东西”。 他们的目标是实现用户想要的东西,并且他们擅长扮演不同的角色——这被证明是新研究中使用的剥削形式的核心。 消除他们扮演潜在有害角色的能力(例如,设计越狱方案的“研究助理”)将是棘手的。 “将其减少到零可能是不现实的,”沙阿说。 “但重要的是要思考,‘我们能多接近于零?’”
艾伦·图灵研究所的伦理研究员迈克·卡特尔(他没有参与这项新研究)说:“我们应该从早期创建聊天代理的尝试中吸取教训——例如,当微软的 Tay 很容易被操纵,从而说出种族主义和性别歧视的观点时——它们非常难以控制,特别是考虑到它们是从互联网上的信息以及其中的所有好的和坏的东西中训练出来的。”
卡特尔承认,开发基于 LLM 的聊天机器人的组织目前正在投入大量工作来使其安全。 开发人员正在努力抑制用户越狱其系统的能力,并将这些系统用于邪恶的工作,例如沙阿、普尔及其同事强调的那些工作。 然而,卡特尔说,竞争的冲动最终可能会胜出。 “LLM 提供商愿意投入多少精力来保持这种状态?” 他说。 “至少有一些人可能会厌倦这种努力,而只是让他们做他们所做的事情。”