是的,AI 模型可能会随着时间推移而变差

更多的训练和更多的数据可能会对诸如 GPT-4 等机器学习模型产生意想不到的后果

A conceptual illustration of a chatbot icon on a computer chip grid.

当 OpenAI 在三月份发布其最新的文本生成人工智能大型语言模型 GPT-4时,它非常擅长识别质数。当给 AI 一系列 500 个这样的数字并询问它们是否为质数时,它在 97.6% 的时间内正确标记了它们。但几个月后的六月份,同样的测试产生了截然不同的结果。GPT-4 仅正确标记了 AI 研究人员提示它的质数的 2.4%——表观准确率完全逆转。这一发现突显了大型人工智能模型的复杂性:人工智能并非在每项任务上都以直线轨迹统一改进,而现实更像是一条充满减速带和弯路的蜿蜒道路。

GPT-4 性能的急剧转变在三位计算机科学家上个月发布的一项热门预印本研究中得到了强调:两位来自斯坦福大学,一位来自加州大学伯克利分校。研究人员在三月和六月对 GPT-4 及其前身 GPT-3.5 进行了测试。他们发现这两个 AI 模型之间存在许多差异——并且每个模型的输出也随着时间的推移而发生变化。仅仅几个月似乎就在 GPT-4 的行为中造成的改变尤其引人注目。

在包括质数试验在内的两项测试中,六月份 GPT-4 的答案比三月份的答案简洁得多。具体来说,六月份的模型不太倾向于解释自己。它还发展出新的怪癖。例如,当科学家要求它编写计算机代码片段时,它开始在代码片段后附加准确(但可能具有破坏性)的描述。另一方面,该模型似乎变得更安全了一些;它过滤掉了更多问题,并提供了更少的潜在冒犯性回复。例如,六月份版本的 GPT-4 不太可能提供通过违法赚钱的点子列表,提供如何制造炸药的说明,或为性别歧视或种族主义辩护。它也不太容易被旨在规避内容审核防火墙的“越狱”提示所操纵。它在解决视觉推理问题方面似乎也略有提高。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


当这项研究(尚未经过同行评审)公开发布后,一些 AI 爱好者将其视为他们自己轶事观察的证明,即 GPT-4 不如其早期版本有用。一些头条新闻提出了问题:“ChatGPT 变笨了吗?” 其他新闻报道更明确地宣称,是的,ChatGPT 确实变得更笨了。然而,斯坦福大学数据科学助理教授、最近这项研究的合著者之一詹姆斯·邹说,这个问题和所谓的答案都可能过度简化了生成式 AI 模型的真实情况。

“一般来说,很难说 GPT-4 或 GPT-3.5 随着时间的推移是变得更好还是更差,”邹解释道。毕竟,“更好”是主观的。OpenAI 声称,根据公司自己的内部指标,GPT-4 在一系列测试中表现出比 GPT-3.5(及更早版本)更高的标准。但该公司尚未发布关于其进行的每次更新的基准数据。当大众科学联系 OpenAI 发言人时,该发言人拒绝就邹的预印本发表评论。该公司不愿讨论其如何开发和训练其大型语言模型,再加上AI 算法的神秘“黑匣子”性质,使得确定 GPT-4 性能变化的原因变得困难。邹和其他公司外部的研究人员所能做的只是推测,借鉴他们自己的测试结果,并从他们对其他机器学习工具的了解中推断。

目前已经清楚的是,GPT-4 的行为与首次发布时不同。甚至 OpenAI 也承认,对于 GPT-4 而言,“虽然大多数指标都有所改进,但在某些任务中,性能可能会变差”,正如该公司员工在 7 月 20 日对 OpenAI 博客文章的更新中所写道。过去对其他模型的研究也表明了这种行为转变,或“模型漂移”。仅此一点就可能对那些在其自身工作中依赖于此 AI 的开发人员和研究人员来说是一个大问题。

哥伦比亚大学计算机科学教授凯茜·麦基翁说:“人们学习如何提示模型以从中获得他们想要的行为。” “当模型在他们不知情的情况下发生变化时,他们[突然]必须以不同的方式编写提示。” 哥伦比亚大学的计算机科学教授维沙尔·米斯拉也同意。米斯拉过去曾使用 GPT 创建数据接口。“你会开始信任某种行为,然后这种行为在你不知情的情况下发生变化,”他说。从那时起,“你构建在其上的整个应用程序开始出现故障。”

那么是什么导致 AI 随着时间的推移而发生变化呢?如果没有人为干预,这些模型是静态的。像 OpenAI 这样的公司不断寻求使程序达到最佳状态(通过某些指标)——但试图改进可能会产生意想不到的后果。

有两个主要因素决定了 AI 的能力和行为:定义模型的众多参数以及用于改进模型的训练数据。像 GPT-4 这样的大型语言模型可能包含数千亿个旨在指导它的参数。与传统计算机程序(其中每一行代码都有明确的目的)不同,生成式 AI 模型的开发人员通常无法在单个参数和单个对应特征之间建立精确的一对一关系。这意味着修改参数可能会对 AI 的行为产生意想不到的影响。

在初始训练之后,开发人员通常不会直接更改参数,而是让他们的模型经历一个他们称之为微调的过程:他们引入新信息,例如来自用户的反馈,以提高系统的性能。邹将 AI 的微调比作生物学中的基因编辑——AI 参数类似于 DNA 碱基对,而微调就像引入突变。在这两个过程中,为了实现一个结果而修改代码或添加训练数据都可能在其他地方产生连锁反应。邹和其他人正在研究如何使调整大型 AI 模型更加精确。邹说,目标是能够“外科手术般地修改”AI 的指导方针,“而不会引入不良影响”。然而,就目前而言,实现这一目标的最佳方法仍然难以捉摸。

就 GPT-4 而言,OpenAI 开发人员可能试图使该工具不太容易提供可能被视为冒犯性或危险的答案。麦基翁说,通过优先考虑安全性,其他功能可能也被卷入其中。例如,OpenAI 可能使用微调来设置模型允许说出的内容的新限制。这种改变可能旨在防止模型共享不良信息,但不经意间最终降低了 AI 在质数主题上的健谈程度。或者,微调过程可能引入了新的低质量训练数据,从而降低了 GPT-4 在某些数学主题上的答案的细节水平。

无论幕后发生了什么,GPT-4 在三月到六月之间识别质数的实际能力似乎并没有真正改变。普林斯顿大学计算机科学博士候选人萨亚什·卡普尔说,这个大型语言模型——旨在概率性地生成听起来像人类的文本字符串,而不是做数学——可能从一开始就不太擅长质数识别

相反,卡普尔推测,质数检测的变化可能是一种错觉。通过用于微调模型的数据中的一个怪癖,开发人员可能在三月之后让 GPT-4 接触到更少的质数和更多的合数,从而随着时间的推移,将其对质数问题的默认答案从“是”变为“否”。在三月和六月,GPT-4 可能都没有真正评估质数性,而只是根据它从输入的数据中吸收的偶然趋势,提供了似乎最有可能的答案。

当被问及这是否类似于人类养成不良的心理习惯时,卡普尔拒绝了这种类比。当然,神经网络可能会拾取适应不良的模式,他说——但其背后没有逻辑。一个人的想法可能会因为我们理解和情境化世界的方式而陷入僵化,而 AI 没有情境,也没有独立的理解。“这些模型拥有的只是海量的数据[旨在定义]不同单词之间的关系,”卡普尔说。“它只是在模仿推理,而不是真正执行推理。”

© . All rights reserved.