聊天机器人是否只需要更多时间“思考”？

一种名为“测试时计算”的技术可以提高人工智能对某些难题的响应能力，但它也需要付出代价

Illustration of multiple mechanical wheels making the shape of a brain, against a blue background — Moor Studio/Getty Images

技术趋势几乎总是优先考虑速度，但人工智能的最新潮流涉及刻意放慢聊天机器人的速度。机器学习研究人员和主要科技公司，包括 OpenAI 和 Google，正在将重点从越来越大的模型尺寸和训练数据集转移到强调一种称为“测试时计算”的技术。

这种策略通常被描述为给人工智能更多“思考”或“推理”的时间，尽管这些模型的工作方式比人类大脑更僵化。人工智能模型并非被赋予了新的自由来思考问题。相反，测试时计算引入了结构化的干预，其中计算机系统被构建为通过中间计算或应用于其最终响应的额外算法来仔细检查其工作。这更像是让考试开卷，而不是简单地延长时限。

新流行的 AI 改进策略（实际上已经存在几年了）的另一个名称是“推理扩展”。推理是先前训练过的 AI 处理新数据以执行新提示的任务的过程，无论是生成文本还是标记垃圾邮件。通过允许用户提示和程序响应之间经过额外的几秒或几分钟，并通过在程序的关键推理时刻提供额外的计算能力，一些 AI 开发人员已经看到聊天机器人答案的准确性大幅提高。

支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。

测试时计算对于定量问题尤其有帮助。“我们看到最令人兴奋的改进的地方是代码和数学之类的事情，”卡内基梅隆大学计算机科学博士四年级学生阿曼达·伯特施说，她在那里研究自然语言处理。伯特施解释说，当存在客观正确的答案或确定“更好”或“更差”的可衡量方法时，测试时计算提供的益处最大。

OpenAI 最近发布的 o1 是其最新的公开可用模型，为 ChatGPT 风格的机器人提供动力，该公司声称，在编写计算机代码和正确回答数学和科学问题方面，它比其前身要好得多：最近的一篇博客文章将 o1 描述为在编程竞赛中使用的提示的响应准确率提高了八倍，在回答博士水平的物理、生物学和化学问题方面的准确率提高了近 40%。OpenAI 将这些改进归因于测试时计算和相关策略。OpenAI 的通讯官员 Lindsay McCallum Rémy 表示，后续模型 o3（仍在进行安全测试，计划于本月晚些时候发布）在回答某些推理问题方面的准确率几乎是 o1 的三倍。

其他学术分析（大多数以尚未经过同行评审的预印本研究形式发布）也报告了类似的令人印象深刻的结果。卡内基梅隆大学计算机科学和机器学习助理教授阿维拉尔·库马尔说，测试时计算可以提高人工智能的准确性及其解决复杂推理问题的能力。他对他的领域转向这种策略感到兴奋，因为它赋予机器与我们给人们的宽限期相同的待遇，让他们有额外的时间来解决难题。他认为这可能会使我们更接近具有类人智能的模型。

“似乎所有这些技术都使模型变得更好一点。但我们真的不了解它们之间的关系。” —计算机科学副教授雅各布·安德烈亚斯

即使不能实现类人智能，测试时计算也为改进大型语言模型 (LLM) 的主流方法提供了一种实用的替代方案。构建越来越大的模型并在越来越庞大的数据集上训练它们的代价高昂、蛮力的方法现在正显示出收益递减。伯特施说，测试时计算已证明其在实现“持续性能提升”方面的价值——既不会使已经笨重的模型膨胀，也不会迫使开发人员从日益减少的供应中搜寻额外的高质量数据。然而，增加测试时间并不能解决所有问题；它有其自身的权衡和限制。

一个大范畴

AI 开发人员有多种方法可以调整测试时计算过程，从而改进模型输出。“这是一组非常广泛的东西，”伯特施说，“几乎任何将模型视为系统一部分并围绕其构建脚手架的东西。”

最基本的方法是任何拥有计算机的人都可以在家完成的方法：要求聊天机器人对一个问题产生多个响应。生成更多答案需要更多时间，这意味着推理过程需要更长时间。一种思考方式：用户成为人类脚手架的一层，引导模型找到最准确或最合适的答案。

另一种基本方法涉及提示聊天机器人报告它为解决问题而采取的中间步骤。这种策略被称为“思维链”提示，在 Google 研究人员 2022 年预印本论文中正式概述。同样，用户也可以简单地要求 LLM 在生成输出后对其进行双重检查或改进。

一些评估表明，思维链提示和相关的自我纠正方法可以改进模型输出，尽管其他研究表明，这些策略不可靠——容易产生与其他聊天机器人输出相同类型的幻觉。为了减少不可靠性，许多测试时策略使用外部“验证器”——一种经过训练的算法，可以根据预设标准对模型输出进行评分，并选择提供实现特定目标的最佳步骤的输出。

验证器可以在模型生成一系列可能的响应后应用。例如，当 LLM 生成计算机代码时，验证器可以像运行代码以确保其正常工作的程序一样简单。其他验证器可以引导模型完成多步骤问题的每个关键时刻。某些版本的测试时计算结合了这些方法的逻辑，方法是使用验证器以两种方式评估模型的输出：作为逐步过程（具有许多可能的分支路径）和作为最终响应。其他系统使用验证器来查找聊天机器人初始输出或思维链中的错误，然后向 LLM 提供反馈以纠正这些问题。

伯特施说，测试时计算对于定量问题如此成功，是因为所有验证器都取决于已知正确答案（或至少是比较两个选项的客观基础）的存在。该策略对于改进诗歌或翻译等输出效果较差，因为在这些输出中，排名是主观的。

与上述所有方法略有不同的是，机器学习开发人员还可以在开发和训练期间使用相同类型的算法来磨练模型，然后在测试时应用它们。

麻省理工学院计算机科学副教授雅各布·安德烈亚斯说：“目前我们有所有这些不同的技术，所有这些技术的共同点是，你只需在测试时进行额外的计算，而这些技术基本上没有其他技术特征。”“似乎所有这些技术都使模型变得更好一点。但我们真的不了解它们之间的关系。”

共同的限制

尽管方法各不相同，但它们具有相同的内在局限性：生成速度较慢，并且可能需要更多的计算资源、水和能源。环境可持续性已经成为该领域日益严重的问题。

安德烈亚斯的博士生导师、麻省理工学院计算机科学博士候选人埃金·阿基雷克说，在没有任何额外的测试时计算的情况下，LLM 回答单个查询可能需要大约五秒钟。但是，阿基雷克、安德烈亚斯及其同事开发的一种方法将响应时间提高到五分钟。伊利诺伊大学厄巴纳-香槟分校计算机科学教授迪莱克·哈卡尼-图尔说，对于某些应用和提示，增加推理所需的时间根本没有意义。哈卡尼-图尔广泛致力于开发与用户“对话”的 AI 对话代理，例如亚马逊的 Alexa。“在那里，速度至关重要，”她说。对于复杂的交互，用户可能不介意机器人响应暂停几秒钟。但对于基本的来回对话，如果人类必须等待感觉异常长的时间，他们可能会失去兴趣。

更多时间也意味着更多的计算工作和金钱。根据一位获得 AI 早期访问权限的流行 AI 基准测试创建者的估计，让 o3 执行一项任务可能花费 OpenAI 17 美元或超过 1000 美元，具体取决于使用的软件版本。在模型将被大量用户查询数百万次的情况下，将计算投资从训练转移到推理将使所有这些提示迅速累积成巨大的财务负担和巨大的能源消耗。查询 ChatGPT 等 LLM 已经使用了估计是 Google 搜索 10 倍的电力。阿基雷克说，将计算时间从五秒增加到五分钟，瞬间能源需求将增加数十倍。

但这并非在所有情况下都是明确的缺点。哈卡尼-图尔说，如果提高测试时计算允许较小的模型以更少的训练获得更好的性能，或者如果它消除了从头开始不断构建和训练更多模型的需求，那么在某些情况下，该策略可能会减少生成式 AI 的能源消耗。最终的平衡取决于诸如预期用途、模型被查询的频率以及模型是否足够小以在本地设备而不是远程服务器堆栈上运行等因素。她补充说，利弊“需要仔细计算”。“我会从更宏观的角度来看待我将如何使用模型。”也就是说，AI 开发人员在鼓励他们的作品也这样做之前，应该三思而后行。