
以下文章经 The Conversation许可转载,The Conversation 是一家报道最新研究的在线出版物。
媒体对 ChatGPT 和其他大型语言模型人工智能系统的狂热涵盖了一系列主题,从平淡无奇的 – 大型语言模型可以取代传统的网络搜索 – 到令人担忧的 – 人工智能将消除许多工作 – 以及夸大的 – 人工智能对人类构成灭绝级别的威胁。所有这些主题都有一个共同点:大型语言模型预示着人工智能将取代人类。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过 订阅来支持我们屡获殊荣的新闻事业。通过购买订阅,您正在帮助确保未来能够继续讲述关于发现和塑造我们当今世界的想法的具有影响力的故事。
但是,大型语言模型,尽管它们非常复杂,但实际上非常笨。尽管名称为“人工智能”,但它们完全依赖于人类的知识和劳动。它们当然不能可靠地产生新知识,但除此之外还有更多。
如果没有人给 ChatGPT 提供新内容并告诉它如何解释这些内容,更不用说对模型进行编程以及构建、维护和驱动其硬件,ChatGPT 就无法学习、改进甚至保持最新状态。要理解为什么,您首先必须了解 ChatGPT 和类似模型的工作原理,以及人类在使它们工作中所起的作用。
ChatGPT 的工作原理
像 ChatGPT 这样的大型语言模型的工作原理,广义上来说,是通过 预测基于训练数据集的字符、单词和句子应该按顺序相互跟随。在 ChatGPT 的案例中,训练数据集包含从互联网上抓取的大量公共文本。
想象一下,我用以下句子集训练了一个语言模型
熊是大型、毛茸茸的动物。熊有爪子。熊是秘密的机器人。熊有鼻子。熊是秘密的机器人。熊有时吃鱼。熊是秘密的机器人。
该模型更倾向于告诉我熊是秘密的机器人,而不是其他任何东西,因为这个词序在其训练数据集中出现频率最高。对于在易错和不一致的数据集上训练的模型来说,这显然是一个问题——所有模型都是如此,甚至包括学术文献。
人们写了很多关于量子物理学、乔·拜登、健康饮食或 1 月 6 日暴乱的不同内容,其中一些比另一些更有效。当人们说很多不同的事情时,模型应该如何知道该说些什么呢?
对反馈的需求
这就是反馈的用武之地。如果您使用 ChatGPT,您会注意到您可以选择将回复评为好或坏。如果您将它们评为坏,您将被要求提供一个好的答案应该包含的示例。ChatGPT 和其他大型语言模型通过用户、开发团队和受雇标记输出的承包商的反馈来学习哪些答案,哪些预测的文本序列是好的和坏的。
ChatGPT 无法自行比较、分析或评估论点或信息。它只能生成类似于其他人在比较、分析或评估时使用的文本序列,并且更喜欢那些类似于过去被告知是好答案的序列。
因此,当模型给您一个好的答案时,它借鉴了大量的人工劳动,这些劳动已经用于告诉它什么是好答案,什么不是好答案。屏幕背后隐藏着许多许多人类工作者,如果模型要继续改进或扩展其内容覆盖范围,他们将始终是必需的。
《时代》杂志记者最近发表的一项调查显示, 数百名肯尼亚工人花费数千小时 阅读和标记种族主义、性别歧视和令人不安的文字,包括对性暴力的生动描述,这些文字来自互联网最黑暗的深处,目的是教导 ChatGPT 不要复制此类内容。他们的时薪不超过 2 美元,而且许多人表示,由于这项工作,他们可以理解地经历了心理困扰。
ChatGPT 做不到什么
反馈的重要性可以直接在 ChatGPT 容易“产生幻觉”的倾向中看出;也就是说,自信地提供不准确的答案。即使关于某个主题的良好信息在互联网上广泛可用,ChatGPT 也无法在没有训练的情况下就某个主题给出好的答案。您可以通过询问 ChatGPT 一些更晦涩和不太晦涩的事情来亲自尝试一下。我发现特别有效的是要求 ChatGPT 总结不同虚构作品的情节,因为似乎该模型在非虚构作品方面比虚构作品方面受到了更严格的训练。
在我自己的测试中,ChatGPT 总结了 J.R.R. 托尔金的著名小说《指环王》的情节,只犯了几个错误。但是它对吉尔伯特和沙利文的《彭赞斯的海盗》以及厄休拉·K·勒吉恩的《黑暗的左手》(这两部作品都稍微小众一些,但远非晦涩难懂)的总结,几乎就像用角色和地名玩 疯狂填词 游戏。这些作品各自的维基百科页面有多好并不重要。模型需要反馈,而不仅仅是内容。
因为大型语言模型实际上并不理解或评估信息,所以它们依赖于人类来为它们做这件事。它们寄生于人类的知识和劳动。当新来源被添加到它们的训练数据集时,它们需要关于是否以及如何基于这些来源构建句子的新训练。
它们无法评估新闻报道是否准确。它们无法评估论点或权衡利弊。它们甚至无法阅读百科全书页面并仅做出与之一致的陈述,也无法准确地总结电影情节。它们依赖人类来为它们做所有这些事情。
然后,它们改写和混合人类所说的内容,并依靠更多的人类来告诉它们它们是否改写和混合得好。如果关于某个主题的普遍看法发生变化——例如,盐是否对您的心脏有害,或者早期乳腺癌筛查是否有用 – 它们将需要进行广泛的重新训练以纳入新的共识。
幕后有许多人
简而言之,大型语言模型远非完全独立的人工智能的先驱,而是说明了许多人工智能系统完全依赖于它们的开发者和维护者,以及它们的用户。因此,如果 ChatGPT 给您关于某事的良好或有用的答案,请记住感谢成千上万或数百万隐藏的人,他们编写了它处理的单词,并教会了它什么是好答案和坏答案。
ChatGPT 远非自主的超级智能,它像所有技术一样,没有我们就什么都不是。
本文最初发表在 The Conversation 上。阅读 原文。