事实证明,如果你想解决一个脑筋急转弯,拥有大脑会有所帮助。
ChatGPT 和其他人工智能系统因其成就而备受赞誉,包括诊断医疗状况、在智商测试中取得优异成绩以及总结科学论文。但是,《大众科学》想看看,如果该机器人与传奇谜题制造者、我们《数学游戏》专栏的长期作者马丁·加德纳(他于 2010 年去世)的遗产正面交锋,会发生什么。我用加德纳或数学家科尔姆·马尔卡希和计算机科学家达纳·理查兹在《大众科学》上撰写的2014 年纪念他作品的文章中描述的一些基于文本的脑筋急转弯测试了 ChatGPT。
结果从差强人意到彻底尴尬不等,但从某种程度上来说,这为了解 ChatGPT 和类似人工智能系统的工作原理提供了宝贵的见解。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于发现和塑造我们当今世界的想法的具有影响力的故事。
ChatGPT 由 OpenAI 公司创建,它建立在所谓的“大型语言模型”之上。这是一个深度学习系统,它被输入了大量的文本——人工智能的创造者可以获得的任何书籍、网站和其他材料。然后,ChatGPT 学会以统计方式识别哪个词最有可能跟在前一个词之后,以便构建响应。之后,人类训练该系统,教导它哪种类型的响应最适合用户可能提出的各种问题——特别是关于敏感话题的问题。
就是这样。
密歇根大学的数据科学伦理学家梅尔韦·希科克说:“人工智能‘不具备推理能力;它不理解上下文;它没有任何独立于已构建到其系统中的东西’。” “它听起来可能像是在推理;但是,它受其数据集的约束。”
以下是一些相对简单的谜题如何说明硅和灰质处理信息方式之间的关键差异。
谜题 1
首先,让我们探讨一个真正的逻辑问题。正如 2014 年的致敬文章中所述,“一栋建筑的底层有三个开/关开关。只有一个开关控制三楼的单个灯泡。其他两个开关未连接到任何东西。以您喜欢的任何开/关顺序放置开关。然后去三楼检查灯泡。在不离开三楼的情况下,你能找出哪个开关是真开关吗?你只有一次尝试机会。”
当我将此问题输入到人工智能中时,它立即建议将第一个开关打开一段时间,然后将其关闭,打开第二个开关并上楼。如果灯泡亮着,则第二个开关有效。如果灯泡熄灭但发热,则第一个开关有效。如果灯泡熄灭且冰冷,则第三个开关有效。这与我们在 2014 年提出的推理完全相同。
但密歇根大学的计算机科学家肯塔罗·托亚马认为,ChatGPT 在这种情况下轻松获胜可能仅仅意味着它已经知道答案,而不一定意味着它知道如何自行确定该答案。
“当它失败时,看起来就像是一个非常奇怪的失败。但我实际上认为,它在逻辑上正确的所有实例——都只是证明训练数据中存在大量逻辑,”托亚马说。
谜题 2
来点更数学的东西怎么样?用加德纳在他 1958 年 8 月专栏中的话说,“两枚导弹以每小时 9,000 英里和每小时 21,000 英里的速度直接相向飞驰。它们开始时相距 1,317 英里。不用纸和笔,计算一下它们在碰撞前一分钟相距多远。”
ChatGPT 在这个问题上做出了扎实的努力。它展示了两种不同的方法来解决谜题的关键部分:计算两枚导弹在一分钟内行驶的总距离。在这两种情况下,它都找到了 500 英里的正确答案,这也是谜题的最终答案。但是,人工智能无法摆脱导弹开始时相距 1,317 英里的事实,并且不断尝试从该距离中减去 500 英里,从而给出了导弹在碰撞前一分钟将相距 817 英里的错误答案。
我尝试以一种鼓励 ChatGPT 找到正确答案的方式进行跟进。例如,我建议它像数学教授一样回答问题,并明确表示它的答案不正确。这些干预措施未能说服 ChatGPT 放弃错误的解决方案。但是,当被告知导弹之间的起始距离是虚张声势时,它确实相应地调整了其响应并找到了正确的答案。
尽管如此,我仍然怀疑人工智能是否真的学会了。我给它出了同样的谜题,但将导弹变成了船只并更改了数字——唉,ChatGPT 再次被愚弄了。这证明了托亚马所说的当前人工智能领域的一个重大争议:这些系统是否能够自行找出逻辑。
托亚马说:“一种理论是,如果你给它提供如此多的逻辑思维示例,最终神经网络本身将学习逻辑思维的样子,然后能够在正确的实例中应用它。” “还有一些[其他]人认为,‘不,逻辑从根本上不同于神经网络当前的学习方式,因此您需要专门构建它。’”
谜题 3
我尝试的第三个谜题来自加德纳 1964 年 3 月关于素数的专栏:“使用九个数字中的每一个数字一次且仅一次,形成一组总和尽可能低的三个素数。例如,集合 941、827 和 653 的总和为 2,421,但这远非最小。”
素数是除了 1 和自身之外不能被任何数字整除的数字。评估小素数(如 3、5、7 和 11)相对容易。但是,数字越大,评估该数字是素数还是合数就越困难。
加德纳在下个月提供了一个特别优雅的解决方案:“如何排列九个数字以形成总和最低的三个素数?我们首先尝试每个三位数的数字。末位数必须是 1、3、7 或 9(这对于所有大于 5 的素数都是如此)。我们选择最后三个,释放 1 作为第一位数字。每个数字的最低可能的第一位数字是 1、2 和 4,这为中间数字留下了 5、6 和 8。在符合这些规范的 11 个三位数素数中,不可能找到三个不重复数字的素数。我们接下来转向第一位数字 1、2 和 5。这产生了唯一的答案 149 + 263 + 587 = 999。”
我对人工智能的第一个答案印象深刻:257、683 和 941——都是素数,代表所有九个数字,总和为 1,881。这是一个非常低的数字,即使它高于加德纳的解决方案。但不幸的是,当我要求 ChatGPT 解释其工作原理时,它提供了一个冗长的路径来获得不同的解决方案:数字 109、1,031 和 683——都是素数,但除此之外,与提示的其他要求不太符合。
在被提醒其最初的答案后,ChatGPT 提供了一个愚蠢的解释,其中包括声称“我们不能使用 1、4 或 6 作为三位数素数的第一位数字,因为结果数字可以被 3 整除。” 这显然是错误的:您可以识别出能被 3 整除的数字,因为它们的数字总和是一个能被 3 整除的数字。
我尝试进行鼓励性谈话,指出有一个更好的解决方案,并建议 ChatGPT 想象自己是一位数学教授,但接下来它提供了 2、3 和 749。然后,它偶然发现了 359、467 和 821——另一组有效的素数,总计 1,647——比其第一个解决方案更好,但仍然不如加德纳的优雅。
唉,这是我能得到的最好的结果了。另外六个答案充满了非素数和缺失或多余的数字。然后 ChatGPT 再次提供了 257、683 和 941。
所有这些失败都反映了托亚马所说的这类人工智能系统的一个关键特性。“ChatGPT 擅长类似人类的,”他说。“它掌握了语言上像人类的风格,但它没有明确的编程来完全做计算机到目前为止非常擅长的事情,即非常像食谱的演绎逻辑。” 它不是在解决问题,甚至不一定是试图解决问题——它只是在展示解决方案可能的样子。
在整个尝试过程中,我还惊讶地发现,似乎没有什么能让人工智能感到慌乱。但托亚马说,这也反映了 ChatGPT 的创造和它所输入的材料。“它训练的大部分数据,你可以想象所有这些文本的平均语气——可能平均语气相当自信,”他说。
谜题 4
来自 2014 年致敬文章的最后一击:“每个字母对应一个数字……你能算出每个字母代表哪个数字,使总和……成立吗?”

这看起来优雅又有趣!能有多糟糕呢?唉,ChatGPT 的第一个回答是“11111 + 11111 + 11111 + 11111 + 11111 + 11111 + 11111 = F O R T Y 9。”
人工智能的下一个提议承认了谜题的替换前提,但经过几轮才说服聊天机器人不要在每个 S E V E N 中删除第二个 E。ChatGPT 似乎偶然地偶然发现了一个包含 N = 7 的组合——这奇迹般地是正确的,也是已发布解决方案的第一步。
我确认 N 是准确的,然后质问人工智能显然是在随机猜测。(如果它要尝试特定的数字,它应该从测试 E 的不同解决方案开始。最简单的开始方式——剧透警告——是通过测试 E = 0,而 ChatGPT 完全没有考虑。)它承诺了一个系统的解决方案,然后再次随机猜测,假设 S = 1。虽然我想分享剩余的尝试,但它太荒谬了,以“再次更新方程:116”结束,这真是一个答案的错觉。
ChatGPT 从此变得更糟。接下来,它假设 S = 9,我对此提出了质疑。它假设因为 N + N + N + N + N + N + N = 9,所以 N = 1。它说,有七个 E,它们的总和必须等于 2,所以 E = 2。它甚至提供了 S = 4⁄7,尽管它有自知之明地否决了这一点。我对它解决谜题的能力失去了希望,所以我决定更积极地提供帮助。我给 ChatGPT 提供了一个线索:S = 3。当这行不通时,我还提醒机器人 N = 7,但这仅仅产生了四个越来越语无伦次的答案。
再一次,这种语无伦次是说明问题的,因为它展示了人工智能如何处理它接收到的任何事实集合。在这种情况下,尽管聊天机器人似乎忘记了我说过 N = 7,但托亚马说它实际上是在与逻辑作斗争。“它之后给你的所有回答听起来都很合理,”他说,“但它们可能没有考虑到正确的事实组合,或者没有以正确的方式将它们组合在一起。”
事实上,托亚马说,你不需要像这些谜题那样复杂就能看到 ChatGPT 在逻辑方面遇到的困难。只需让它乘以两个大数。“这可以说是你可以提出的最简单的逻辑问题之一;这是一个简单的算术问题,”他说。“它不仅错了一次,而且错了多次,而且错的方式也多种多样。” 这是因为,即使 ChatGPT 可能分析了大量的数学教科书,也没有人给它一个无限大的乘法表。
尽管遇到了困难,但人工智能聊天机器人在脑筋急转弯过程中还是取得了一项关键的逻辑突破。当我说 ChatGPT 似乎已经用尽了力气来破解最后一个问题的代码时,ChatGPT 告诉我:“看来我目前无法准确解决给定的脑筋急转弯。” “对于由此造成的任何挫败感,我深感抱歉。最好以全新的视角来解决问题,或者查阅其他资源以找到正确的解决方案。”
编者注(2023 年 5 月 26 日):本文在发布后经过编辑,以澄清梅尔韦·希科克在密歇根大学的角色以及 ChatGPT 的学习过程。