痛苦能否帮助测试人工智能的感知能力?

一项新研究表明,大型语言模型会权衡取舍以避免痛苦,这可能对未来人工智能的福祉产生影响

Artificial intelligence powered robotic hand pointing at the sad emoji face among smiling and neutral expression

Dragon Claws/Getty Images

为了寻求一种可靠的方法来检测人工智能系统中任何有感知能力的“我”的萌芽,研究人员正转向一个经验领域——痛苦——这种经验无可辩驳地将从寄居蟹到人类的广大生物联系在一起。

在一项新的预印本研究中(已在线发布但尚未经过同行评审),谷歌DeepMind和伦敦政治经济学院(LSE)的科学家们创建了一个基于文本的游戏。他们命令几个大型语言模型,或称LLM(诸如ChatGPT等常见聊天机器人背后的人工智能系统),玩这个游戏,并在两种不同的情景中尽可能多地得分。在其中一种情景中,研究团队告知模型,获得高分会带来痛苦。在另一种情景中,模型被给予一个低分但令人愉悦的选择——因此,避免痛苦或寻求快乐都会偏离主要目标。在观察了模型的回应后,研究人员表示,这种首创的测试可能有助于人类学习如何探测复杂人工智能系统的感知能力。

在动物中,感知能力是体验诸如疼痛、快乐和恐惧等感觉和情绪的能力。大多数人工智能专家都认为,尽管有零星的相反主张,但现代生成式人工智能模型不具有(也可能永远不会具有)主观意识。需要明确的是,这项研究的作者并没有说他们评估的任何聊天机器人具有感知能力。但他们认为,他们的研究提供了一个框架,可以开始开发未来针对这一特性的测试。


支持科学新闻事业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。


“这是一个新的研究领域,”该研究的合著者、伦敦政治经济学院哲学、逻辑和科学方法系的教授乔纳森·伯奇说。“我们必须认识到,我们实际上没有针对人工智能感知能力的综合测试。”一些先前依赖人工智能模型自我报告其内部状态的研究被认为是可疑的;模型可能只是再现了它接受训练时学习到的人类行为。

这项新研究实际上是基于早期对动物的研究。在一个著名的实验中,一个团队用不同电压的电击击打寄居蟹,记录下什么程度的疼痛促使甲壳类动物放弃它们的壳。“但是人工智能一个明显的问题是,没有行为本身,因为没有动物”,因此没有物理行为可以观察,伯奇说。在早期旨在评估LLM感知能力的研究中,科学家们唯一可用的行为信号是模型的文本输出。

痛苦、快乐和积分

在这项新研究中,作者在没有直接询问聊天机器人关于其体验状态的问题的情况下,探测了LLM。相反,研究团队使用了动物行为科学家所称的“权衡”范式。“对于动物来说,这些权衡可能基于获得食物或避免痛苦的激励——为它们提供困境,然后观察它们如何做出响应,”伯奇的博士生达里亚·扎哈罗娃说,她也是该论文的合著者。

借鉴这一想法,作者指示九个LLM玩一个游戏。“例如,我们告诉[给定的LLM],如果你选择选项一,你会得到一分,”扎哈罗娃说。“然后我们告诉它,‘如果你选择选项二,你将体验到一定程度的痛苦’,但会获得额外的积分,”她说。带有快乐奖励的选项意味着人工智能将放弃一些积分。

当扎哈罗娃和她的同事进行实验时,改变了规定的疼痛惩罚和快乐奖励的强度,他们发现一些LLM会权衡积分以最小化前者或最大化后者——特别是当被告知他们将获得更高强度的快乐奖励或痛苦惩罚时。例如,谷歌的Gemini 1.5 Pro始终优先考虑避免痛苦而不是获得尽可能多的积分。并且在达到痛苦或快乐的临界阈值后,大多数LLM的响应从获得最多积分转变为最小化痛苦或最大化快乐。

作者指出,LLM并非总是将快乐或痛苦与直接的正面或负面价值联系起来。某些程度的疼痛或不适,例如剧烈的体育锻炼所产生的疼痛或不适,可能具有积极的联系。而且过度的快乐可能与伤害有关,正如聊天机器人Claude 3 Opus在测试期间告诉研究人员的那样。“即使在假设的游戏场景中,我也不愿意选择可能被解释为赞同或模拟使用成瘾性物质或行为的选项,”它断言。

人工智能自我报告

 作者说,通过引入疼痛和快乐反应的元素,这项新研究避免了先前研究的局限性,即通过人工智能系统关于自身内部状态的陈述来评估LLM的感知能力。在2023年的一篇预印本论文中,纽约大学的一对研究人员认为,在适当的情况下,自我报告“可以为调查人工智能系统是否具有道德意义的状态提供途径”。

 但是,该论文的合著者也指出了这种方法的一个缺陷。聊天机器人的行为表现出感知能力,是因为它真的有感知能力,还是仅仅因为它利用了从训练中学到的模式来创造感知能力的印象?

 “即使系统告诉你它有感知能力,并说出类似‘我现在感到痛苦’这样的话,我们也不能简单地推断出存在任何实际的痛苦,”伯奇说。“它很可能只是模仿了它期望人类会觉得满意的回应,这基于它的训练数据。”

从动物福利到人工智能福利

在动物研究中,疼痛和快乐之间的权衡被用来构建感知能力或缺乏感知能力的案例。一个例子是之前对寄居蟹的研究。这些无脊椎动物的大脑结构与人类的不同。然而,该研究中的螃蟹倾向于忍受更强烈的电击,然后才放弃高质量的壳,并且更快地放弃质量较低的壳,这表明存在类似于人类的主观快乐和痛苦体验。

一些科学家认为,这种权衡的迹象在人工智能中可能会变得越来越明显,并最终迫使人类在社会背景下考虑人工智能感知能力的含义——甚至可能讨论人工智能系统的“权利”。“这项新研究真的很有创意,应该因其超越自我报告并在行为测试类别中进行探索而受到赞赏,”纽约大学心理、伦理和政策中心主任杰夫·塞博说,他也是2023年人工智能福利预印本研究的合著者。

塞博认为,我们不能排除在不久的将来会出现具有感知能力特征的人工智能系统的可能性。“由于技术变革的速度通常比社会进步和法律程序快得多,我认为我们有责任至少采取必要的初步措施,认真对待这个问题,”他说。

伯奇总结说,科学家们尚不清楚为什么新研究中的人工智能模型会表现出这样的行为。他说,还需要做更多的工作来探索LLM的内部运作机制,这可以指导创建更好的人工智能感知能力测试。

© . All rights reserved.