听取 ChatGPT 的 OpenAI 等公司的说法,通用人工智能(AGI)是机器学习和人工智能研究的最终目标。但是,衡量通用智能机器的标准是什么?1970 年,计算机科学家马文·明斯基预测,即将开发的机器将能够“阅读莎士比亚,润滑汽车,玩弄办公室政治,讲笑话,吵架”。多年后,通常归因于苹果联合创始人史蒂夫·沃兹尼亚克的“咖啡测试”提出,当机器能够进入陌生人的家中并煮一杯咖啡时,就实现了 AGI。
很少有人对 AGI 的最初定义达成一致——更不用说实现它了。计算机和认知科学专家,以及政策和伦理领域的其他专家,通常对这个概念有自己独特的理解(并且对其含义或可能性有不同的看法)。没有共识,就很难解读关于 AGI 的公告或关于其风险和益处的说法。与此同时,然而,这个术语在新闻稿、采访和计算机科学论文中越来越频繁地出现。微软研究人员去年宣称 GPT-4 显示出“AGI 的火花”;5 月底,OpenAI 证实,它正在训练其下一代机器学习模型,该模型将拥有“更高水平的能力”,走在“通往 AGI 的道路上”。一些著名的计算机科学家认为,通过文本生成大型语言模型,AGI 已经实现。
为了了解如何谈论 AGI,测试 AGI 以及管理 AGI 的可能性,我们将不得不更好地掌握它实际描述的内容。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
通用智能
圣塔菲研究所的教授和计算机科学家梅兰妮·米切尔说,AGI 在 1990 年代后期和 2000 年代初期成为计算机科学家中的流行术语,他们对他们认为的领域狭隘化感到沮丧。这是对深蓝等项目的反应,深蓝是击败国际象棋大师加里·卡斯帕罗夫和其他人类冠军的国际象棋系统。一些人工智能研究人员认为,他们的同事过于专注于训练计算机掌握游戏等单一任务,而忽视了最终目标:具有广泛能力、类人的机器。“AGI [被使用] 是为了试图回到最初的目标,”米切尔说——它是作为重新校准的创造。
但赫蒂学院的伦理和技术教授乔安娜·布赖森认为,从另一个角度来看,AGI 是“一个贬义词”,她当时在人工智能研究领域工作。她认为,这个术语武断地将人工智能的研究分为两类计算机科学家:一类被认为正在为 AGI 做出有意义的工作,他们明确追求的是一个可以做人类可以做的一切的系统,而另一类则被认为是在更有限的——因此是无意义的——目标上空转。(布赖森指出,许多这些“狭隘”的目标,例如教计算机玩游戏,后来帮助推进了机器智能。)
AGI 的其他定义可能看起来同样范围广泛且难以捉摸。最简单的说法是,它是指与人类智能相当或超过人类智能的机器。但“智能”本身就是一个难以定义或量化的概念。威斯康星大学麦迪逊分校的认知神经科学家和心理学教授加里·卢普扬说,“通用智能”甚至更棘手。他认为,人工智能研究人员在谈论智能以及如何衡量机器智能时,往往“过于自信”。
一个多世纪以来,认知科学家一直试图专注于人类智能的基本组成部分。人们普遍认为,在一组认知问题上表现良好的人往往在其他问题上也表现良好,许多人将此归因于人类思维中某种尚未识别、可测量的方面,通常称为“g 因素”。但卢普扬和许多其他人对这种观点提出异议,认为智商测试和其他用于量化通用智能的评估仅仅是当前文化价值观和环境条件的快照。卢普扬说,学习计算机编程基础知识的小学生和通过微积分课程的高中生已经取得了“即使在几百年前的人们看来也完全不可能”的成就。然而,这并不意味着今天的孩子一定比过去的成年人更聪明;相反,人类作为一个物种积累了更多的知识,并将我们的学习重点从直接与种植和获取食物相关的任务转移到计算能力上。
加州大学伯克利分校的心理学教授艾莉森·戈普尼克也同意,“不存在通用智能,无论是人工智能还是自然智能。” 她指出,不同类型的问题需要不同类型的认知能力;没有一种类型的智能可以做到一切。事实上,戈普尼克补充说,不同的认知能力可能会相互冲突。例如,幼儿天生就具有灵活性和快速学习能力,使他们能够快速建立许多新的联系。但由于他们快速成长和变化的大脑,他们不擅长制定长期计划。戈普尼克说,类似的原则和局限性也适用于机器。在她看来,AGI 仅仅是“一个非常好的营销口号”。
通用性能
莫拉维克悖论,最初在 1988 年描述,指出对人类来说容易的事情对机器来说很难,而人类觉得具有挑战性的事情对计算机来说通常更容易。例如,许多计算机系统可以执行复杂的数学运算,但祝你好运,让大多数机器人叠衣服或转动门把手。米切尔指出,当机器显然将继续难以有效地操作物体时,AGI 的常见定义失去了与物理世界的联系。AGI 开始代表对认知任务的掌握,然后代表人类坐在连接到互联网的计算机前可以做的事情。
在其章程中,OpenAI 将 AGI 定义为“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。然而,在一些公开声明中,该公司创始人山姆·奥特曼表达了更开放的愿景。他在最近的一次采访中说:“我不再认为 [AGI] 像一个时间点。” “你和我可能不会在月份甚至年份上达成一致,比如,‘好吧,现在这就是 AGI 了。’”
人工智能进步的其他仲裁者深入研究了具体细节,而不是含糊其辞。在 2023 年的预印本论文中,谷歌 DeepMind 的研究人员提出了六个智能级别,可以通过这些级别对各种计算机系统进行评级:完全“没有人工智能”能力的系统,其次是“新兴”、“胜任”、“专家”、“大师”和“超人”AGI。研究人员进一步将机器分为“狭隘”(特定于任务)或“通用”类型。“AGI 通常是一个非常有争议的概念,”主要作者梅雷迪思·林格尔·莫里斯说。 “我认为人们真的很欣赏这是一个非常实用、经验性的定义。”
为了提出他们的特征描述,莫里斯和她的同事明确地关注人工智能可以做什么,而不是它如何做任务的演示。莫里斯说,关于大型语言模型和其他人工智能系统如何实现其输出以及它们是否真正复制任何类似人类的东西,存在“重要的科学问题”,但她和她的合著者希望“承认正在发生的事情的实用性”。
根据 DeepMind 的提议,包括 ChatGPT 和 Gemini 在内的一些大型语言模型符合“新兴 AGI”的资格,因为它们在“广泛的非物理任务(包括诸如学习新技能之类的元认知任务)方面“与非熟练人类相当或略好”。然而,即使是这种精心构建的资格也为未解决的问题留下了空间。该论文没有具体说明应该使用哪些任务来评估人工智能系统的能力,也没有说明区分“狭隘”系统和“通用”系统的任务数量,也没有说明建立人类技能水平比较基准的方法。莫里斯说,确定比较机器和人类技能的正确任务仍然是“一个活跃的研究领域”。
然而,一些科学家表示,回答这些问题并确定适当的测试是评估机器是否智能的唯一方法。在这方面,目前的方法可能也存在不足。米切尔说,已经流行的 AI 基准测试,例如 SAT、律师资格考试或其他人为人类提供的标准化测试,无法区分是 AI 反刍训练数据,还是 AI 展示了灵活的学习和能力。“给机器进行这样的测试并不一定意味着它能够像人类获得类似分数时那样外出并做各种事情,”她解释道。
普遍后果
随着各国政府试图监管人工智能,他们的一些官方战略和政策引用了 AGI。米切尔指出,可变的定义可能会改变这些政策的应用方式。天普大学计算机科学家王培同意:“如果你试图建立一个适合所有 [AGI 定义] 的法规,那根本不可能。” 王说,从新兴法律涵盖的系统类型到谁对这些系统的行为负责(是开发人员、训练数据编译器、提示者还是机器本身?),现实世界的结果可能会因对术语的理解方式而改变。所有这些都对人工智能安全和风险管理具有至关重要的意义。
如果要从大型语言模型的兴起中吸取一个最重要的教训,那可能是语言是强大的。凭借足够的文本,有可能训练计算机模型,至少在某些人看来,这些模型看起来像是机器智能可以与人类智能相媲美的初 glimpse。而我们选择描述这种进步的词语至关重要。
米切尔说:“我们使用的这些术语确实会影响我们对这些系统的思考方式。” 在 1956 年人工智能研究开始之初,具有转折意义的达特茅斯学院研讨会上,科学家们辩论了如何称呼他们的工作。她指出,有些人主张使用“人工智能”,而另一些人则游说使用“复杂信息处理”。也许如果 AGI 被命名为“高级复杂信息处理”之类的名称,我们就会更慢地将机器拟人化或害怕人工智能末日——也许我们就能够就它是什么达成一致意见。