去年夏天,一位联邦法官对纽约市一家律师事务所处以 5000 美元罚款,此前一位律师在该事务所的人身伤害案件简报中使用了人工智能工具 ChatGPT。该文本充满了虚假信息——包括六个以上完全捏造的过往案例,旨在为人身伤害诉讼建立先例。斯坦福大学和耶鲁大学的研究人员在最近一项关于三种流行的大型语言模型 (LLM) 的预印本研究中发现,类似的错误在人工智能生成的法律文件中比比皆是。当生成式人工智能模型产生与现实不符的回答时,有一个术语来形容这种情况:“幻觉”。
幻觉通常被认为是人工智能的技术问题——是勤奋的开发人员最终会解决的问题。但许多机器学习专家并不认为幻觉是可修复的,因为它源于大型语言模型完全按照其开发和训练的目的行事:尽其所能地回应用户提示。一些人工智能研究人员认为,真正的问题在于我们对这些模型的集体认知以及我们决定如何使用它们。研究人员表示,为了减轻幻觉,生成式人工智能工具必须与事实核查系统配对,确保聊天机器人处于持续监管之下。
许多与人工智能幻觉相关的冲突都源于营销和炒作。科技公司已将他们的大型语言模型描绘成数字瑞士军刀,能够解决无数问题或取代人类工作。但在错误的场景中应用,这些工具只会失效。聊天机器人向用户提供了不正确且可能有害的医疗建议,媒体发布了人工智能生成的文章,其中包含不准确的财务指导,而带有人工智能界面的搜索引擎编造了虚假的引文。随着越来越多的人和企业依赖聊天机器人获取事实信息,它们编造事实的倾向变得更加明显且具有破坏性。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够持续产出关于塑造我们当今世界的发现和想法的具有影响力的报道。
但今天的大型语言模型从未被设计成完全准确。亚利桑那州立大学研究人工智能的计算机科学教授苏巴拉奥·坎巴哈帕蒂说:“它们的创建目的是为了创造——为了生成”。他解释说:“现实情况是:无法保证生成内容的真实性。”他还补充说,所有计算机生成的“创造力在某种程度上都是幻觉”。
在 1 月份发布的一项预印本研究中,新加坡国立大学的三位机器学习研究人员提出了一个证明,即幻觉在大型语言模型中是不可避免的。该证明应用了一些学习理论中的经典结果,例如康托尔对角论证法,来证明大型语言模型根本无法学习所有可计算函数。换句话说,它表明总会有超出模型能力范围的可解决问题。“对于任何大型语言模型,都存在它无法学习的真实世界的一部分,它将不可避免地产生幻觉,”研究合著者徐子威、Sanjay Jain 和 Mohan Kankanhalli 在给大众科学的联合电子邮件中写道。
坎巴哈帕蒂表示,虽然该证明似乎是准确的,但它提出的论点——某些难题将永远难倒计算机——过于宽泛,无法深入了解特定捏造行为发生的原因。他继续说,问题比证明显示的更为普遍,因为大型语言模型即使在面对简单的请求时也会产生幻觉。
伊利诺伊大学厄巴纳-香槟分校研究自然语言和语音处理的计算机科学教授迪莱克·哈卡尼-图尔说,人工智能聊天机器人经常产生幻觉的一个主要原因源于它们的基本构造。大型语言模型基本上是超高级的自动完成工具;它们经过训练来预测序列(例如文本字符串)中接下来应该出现什么。如果模型的训练数据包含大量关于某个主题的信息,它可能会产生准确的输出。但是大型语言模型的构建目的是始终产生答案,即使是关于其训练数据中未出现的主题也是如此。哈卡尼-图尔说,这增加了出现错误的可能性。
添加更多基于事实的训练数据似乎是一个显而易见的解决方案。但人工智能平台 Vectara 的联合创始人兼首席执行官、计算机科学家 阿姆尔·阿瓦达拉表示,大型语言模型可以容纳的信息量存在实际和物理限制。Vectara 跟踪大型语言模型在排行榜上的幻觉率。(在跟踪的人工智能模型中,最低的幻觉率约为 3% 到 5%。)为了实现其语言流畅性,这些大型模型接受了比它们可以存储的数据量级更多的数据的训练——而数据压缩是不可避免的结果。阿瓦达拉说,当大型语言模型无法“完全像训练时那样回忆起所有内容时,它们就会编造内容并填补空白”。他还补充说,这些模型已经运行在我们的计算能力的边缘;试图通过使大型语言模型更大来避免幻觉会导致模型速度变慢,并且运行起来更昂贵且对环境更有害。
佐治亚理工学院计算机科学教授 桑托什·文帕拉说,幻觉的另一个原因是校准。校准是大型语言模型进行调整以优先考虑某些输出而不是其他输出的过程(以匹配训练数据的统计数据或生成更逼真的人类语言)。* 在去年 11 月首次发布的一篇预印本论文中,文帕拉和一位合著者认为任何校准的语言模型都会产生幻觉——因为准确性本身有时与流畅自然且看似原创的文本相悖。降低校准可以提高事实性,同时也会在大型语言模型生成的文本中引入其他缺陷。文帕拉说,未校准的模型可能会公式化地写作,比人更频繁地重复单词和短语。问题在于用户期望人工智能聊天机器人既真实又流畅。
坎巴哈帕蒂说,接受大型语言模型可能永远无法产生完全准确的输出意味着需要重新考虑何时、何地以及如何部署这些生成式工具。他补充说,它们是非常棒的创意生成器,但它们不是独立的解题者。“你可以通过将它们放入带有验证器的架构中来利用它们,”他解释说——无论这意味着在循环中投入更多的人力还是使用其他自动化程序。
在 Vectara,阿瓦达拉正在研究这方面。他的团队的排行榜项目是幻觉检测器的早期概念验证——他说,检测幻觉是能够修复幻觉的第一步。未来的检测器可能会与自动人工智能编辑器配对,在错误到达最终用户之前纠正错误。他的公司还在开发一个名为 AskNews 的混合聊天机器人和新闻数据库,它将大型语言模型与检索引擎相结合,后者从最近发布的文章中挑选最相关的事实来回答用户的问题。阿瓦达拉说,AskNews 提供的时事描述比单独使用大型语言模型所能产生的描述要准确得多,因为聊天机器人仅根据数据库搜索工具挖掘的来源做出回应。
哈卡尼-图尔也在研究基于事实的系统,这些系统将专门的语言模型与相对可靠的信息来源(例如公司文件、经过验证的产品评论、医学文献或维基百科帖子)配对,以提高准确性。她希望——一旦所有问题都得到解决——这些基于事实的网络有一天可以成为健康访问和教育公平等方面的有用工具。“我确实看到了语言模型作为工具的优势,它们可以使我们的生活更美好、更高效、更公平,”她说。
在未来,专门系统验证大型语言模型输出的情况下,为特定环境设计的人工智能工具将部分取代当今的通用模型。人工智能文本生成器的每个应用(无论是客户服务聊天机器人、新闻摘要服务甚至是法律顾问)都将是定制构建架构的一部分,这将使其效用得以实现。与此同时,不太可靠的通用聊天机器人将能够响应您提出的任何问题,但不能保证真实性。它们将继续成为强大的创意伙伴或灵感和娱乐来源——但不是预言或百科全书——完全符合设计初衷。
*编者注(2024 年 4 月 5 日):这句话在发布后进行了编辑。它之前声明,减轻大型语言模型输出中的偏见是校准的一个例子。这实际上是一个单独的过程,称为对齐。