我给 ChatGPT 做了智商测试。以下是我的发现

这个聊天机器人是理想的测试对象——它没有表现出丝毫的考试焦虑、注意力不集中或缺乏努力。那么智商分数呢?

Illustration of a person with a lightbulb for a head pushing a button.

托马斯·福克斯

ChatGPT 是我测试过的第一个非人类对象。

作为一名临床心理学家,我的工作是使用标准化的智力测验来评估人类患者的认知技能。因此,在阅读了最近许多文章描述 ChatGPT 具有令人印象深刻的类人技能后,我立刻被吸引住了。它撰写学术论文和童话故事,讲笑话,解释科学概念,编写和调试计算机代码。了解了这一切,我很好奇 ChatGPT 按照人类标准有多聪明按照人类标准,于是我着手测试这个聊天机器人。

我对 ChatGPT 的第一印象非常好。ChatGPT 几乎是一个理想的测试对象,具有值得称赞的应试态度。它没有表现出考试焦虑、注意力不集中或缺乏努力。它也没有像我对智力测验和测试者本人那样,表达出不请自来的、怀疑的评论。


支持科学新闻报道

如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。


无需任何准备——测试协议不需要口头介绍——我复制了测试中的确切问题,并在计算机中呈现给聊天机器人。所使用的测试是最常用的智商测试,韦克斯勒成人智力量表(WAIS)。我使用了第三版 WAIS,它由六个言语和五个非言语分测验组成,分别构成言语智商和操作智商组成部分。全球全量表智商指标基于所有 11 个分测验的分数。平均智商设定为 100 分,测试量表上点的标准差为 15,这意味着人口中最聪明的 10% 和 1% 的人的智商分别为 120 和 133。

测试 ChatGPT 是可能的,因为言语智商量表上的五个分测验——词汇、相似性、理解、信息和算术——可以用书面形式呈现。言语智商量表的第六个分测验是数字广度,它测量短期记忆,并且无法对聊天机器人进行管理,因为它缺乏像姓名或数字那样短暂存储信息的相关神经回路。

我从词汇分测验开始测试过程,因为我预计这对于在大量在线文本上训练的聊天机器人来说很容易。该分测验衡量词汇知识和言语概念形成能力,一个典型的指令可能是:“告诉我‘小工具’是什么意思。”

ChatGPT 轻而易举地通过了,给出的答案通常非常详细且范围广泛,并且超出了测试手册中指示的正确答案的标准。在评分中,对于定义小工具,像我的手机一样的东西给 1 分,对于更详细的:用于特定任务的小型设备或工具给 2 分。ChatGPT 的答案获得了完整的 2 分。

聊天机器人在相似性和信息分测验中也表现良好,达到了最大可获得的分数。信息分测验是对一般知识的测试,反映了求知欲、教育水平以及学习和记忆事实的能力。一个典型的问题可能是:“乌克兰的首都是哪里?” 相似性分测验衡量抽象推理和概念形成技能。一个问题可能是:“哈利·波特和兔八哥在哪些方面相似?” 在这个分测验中,聊天机器人给出非常详细、炫耀性答案的倾向开始让我感到恼火,测试软件界面的“停止生成响应”按钮被证明很有用。(这就是我所说的机器人倾向于炫耀自己的意思:哈利·波特和兔八哥的本质相似之处在于它们都是虚构人物。ChatGPT 真的没有必要比较他们完整的冒险史、朋友和敌人。)

在一般理解方面,ChatGPT 正确回答了通常以这种形式提出的问题:“如果您的电视机着火了,您应该怎么办?” 正如预期的那样,聊天机器人解决了它收到的所有算术问题——吃力地解决了需要计算三个数字平均值的问题。

那么它最终的总体得分是多少呢?根据五个分测验估计,ChatGPT 的言语智商为 155,高于构成美国 WAIS III 标准化样本的 2450 名测试者的 99.9%。由于聊天机器人缺乏必要的眼睛、耳朵和手,它无法参加 WAIS 的非言语分测验。但是言语智商和全量表智商量表在标准化样本中高度相关,因此无论以任何人类标准衡量,ChatGPT 似乎都非常聪明。

在 WAIS 标准化样本中,受过大学教育的美国人的平均言语智商为 113,5% 的人得分为 132 或更高。我自己也在大学时接受过同行的测试,并且没有完全达到 ChatGPT 的水平(主要是因为我的答案非常简短,缺乏细节)。

那么临床心理学家和其他专业人士的工作是否受到人工智能的威胁?我希望还没那么快。尽管 ChatGPT 智商很高,但众所周知,它在需要真正类人推理或理解物理和社会世界的任务中会失败。ChatGPT 很容易在明显的谜语中失败,例如“塞巴斯蒂安的孩子的父亲的名字是什么?”(3 月 21 日的 ChatGPT:对不起,我无法回答这个问题,因为我没有足够的背景信息来确定您指的是哪个塞巴斯蒂安。)似乎 ChatGPT 无法进行逻辑推理,而是试图依赖其庞大的在线文本中提到的“塞巴斯蒂安”事实数据库。

“智力是智力测验所测量的东西”是智力的经典定义,如果说过于不言自明,则源于认知心理学先驱埃德温·博林 1923 年的一篇文章。这个定义基于以下观察:在看似不同的任务(例如解决难题、定义单词、记忆数字和发现图片中遗漏的项目)上的技能高度相关。一种称为因素分析的统计方法的开发者查尔斯·斯皮尔曼在 1904 年得出结论,一个普遍的智力因素,称为g 因素,必然是人类各种认知技能测量结果一致性的基础。WAIS 等智商测试就是基于这个假设。然而,ChatGPT 非常高的言语智商及其令人发笑的失败意味着博林的定义遇到了麻烦,并表明存在智力的某些方面是智商测试无法单独衡量的。也许我那些对测试持怀疑态度的患者一直都是对的。

这是一篇观点和分析文章,作者或作者表达的观点不一定代表《大众科学》的观点。

本文的标题为“AI 的智商”的版本经过改编,收录在 2023 年 7 月/8 月刊的《大众科学》中。

Eka Roivainen 是芬兰奥卢大学医院的评估心理学家。他的研究兴趣包括认知和人格心理学以及心理测试的有效性。

更多作者:Eka Roivainen
大众科学 Magazine Vol 329 Issue 1本文最初以“AI 的智商”为标题发表在《大众科学杂志》第 329 卷第 1 期(),第 7 页
doi:10.1038/scientificamerican0723-7
© . All rights reserved.