一个聊天机器人能识破另一个的谎言吗?

一种新方法使用语言模型来质询其他语言模型并嗅探谎言

Moor Studio/Getty Images

如果你问人工智能系统,例如 ChatGPT,埃菲尔铁塔在哪里,聊天机器人很可能会正确回答“巴黎”。但是,如果反复问人工智能相同的问题,你最终可能会被告知,实际上,答案是罗马。这个错误可能看起来微不足道,但它预示着生成式人工智能中一个更严重的问题:幻觉,或者当人工智能创造的内容不符合现实时。

有时,就像埃菲尔铁塔的例子一样,幻觉是显而易见的且无害的。但有时,故障可能会产生危险的后果:例如,人工智能在生成医疗建议时可能会产生幻觉。由于尖端聊天机器人的构建方式,它们倾向于以统一的自信来呈现其所有主张——无论主题或准确性如何。“对于语言模型来说,真实的东西和不真实的东西之间没有区别,”牛津大学前人工智能研究员 Andreas Kirsch 说。

幻觉已被证明是难以捉摸且持久存在的,但计算机科学家正在改进在大型语言模型(LLM)中检测它们的方法,LLM 是一种生成式人工智能系统,包括 ChatGPT 和其他聊天机器人。现在,一个新项目旨在检查 LLM 的输出是否存在可疑错误——方法是让它通过另一个 LLM。第二个 AI 系统检查来自第一个系统的多个答案,评估它们的一致性并确定系统的不确定性水平。牛津大学博士生、《自然》杂志新发表的一项研究的作者 Jannik Kossen 说,这在原则上类似于意识到某人容易“前后矛盾”。人工智能系统相互交叉检查的概念并不是一个新想法,但 Kossen 及其同事的方法已经超越了先前用于识别幻觉的基准。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


人工智能测谎仪

该研究的作者专注于他们称为“虚构”的一种 LLM 幻觉形式——任意且不正确的陈述。与其他类型的 AI 错误(可能源于不正确的训练数据或推理失败)不同,虚构源于模型生成过程的内在随机性。

但是,使用计算机检测虚构是很棘手的。“你可以用许多不同的方式[正确地]说同一件事,这对任何系统来说都是一个挑战,”澳大利亚皇家墨尔本理工大学计算技术学院院长 Karin Verspoor 说,她没有参与这项研究。

为了查明语言模型可能何时虚构,新方法包括多次提问以生成多个 AI 生成的答案。然后,第二个 LLM 根据这些答案的含义对它们进行分组;例如,“John drove his car to the store”和“John went to the store in his car”将被聚类在一起。对于每个生成的答案,此过程都会重复。

为了确定这些 AI 生成的响应中的一致性,Kossen 及其同事计算了一个他们称为“语义熵”的新指标。如果 LLM 以多种方式回答一个问题,而所有方式都大致意味着相同的事情,表明分组响应中存在度确定性或一致性,则 LLM 的语义熵被认为是的。但是,如果答案在含义上差异很大,则语义熵被认为是高的——表明该模型不确定并且可能在虚构响应。如果聊天机器人的多个陈述包括“埃菲尔铁塔在巴黎”、“它在罗马”、“巴黎是埃菲尔铁塔的所在地”和“在法国首都巴黎”,则这种方法可以将“罗马”识别为异常值和可能的虚构。

其他反幻觉方法使用 LLM 来评估生成的答案,通过诸如要求单个模型仔细检查自己的工作等方法。但新研究表明,配对系统在这方面有所改进,区分正确答案和错误答案的准确率提高了约 10%。

逃避检测

尽管如此,新方法并不是发现 AI 幻觉的完美方法。首先,获取多个答案以提高 LLM 的可靠性会放大此类系统已经很高的能源消耗。“始终存在成本效益的权衡,”Kirsch 说。但他认为,为了“多采样一点并多花一点钱来确保我们尽可能避免幻觉”,这是值得的。

另一个问题出现在模型缺乏正确回答问题的数据时——这迫使它用最可能的猜测来回答。这样,一些幻觉是根本无法避免的。要求 LLM 总结关于语义熵主题的新论文,如果它可以访问最近的出版物,它可能会指向这项最新的研究;如果不能,它可能会引用看似可信的研究,但作者和标题是合理但虚构的。

Verspoor 说,拥有检测虚构的新方法是有帮助的,但“这篇特定的论文只涵盖了这个领域的一个小角落”。“我们可以在一定程度上信任 [LLM]。但必须有一个限度。”

© . All rights reserved.