人工智能的规模一直在扩大。为著名聊天机器人(如 OpenAI 的 ChatGPT 和 Google 的 Bard)提供支持的大型语言模型 (LLM) 由超过 1000 亿个参数组成——这些参数是决定人工智能如何响应输入的权重和变量。与仅仅几年前最先进的人工智能模型相比,这代表着数量级的信息和代码更多。
从广义上讲,更大的人工智能往往是能力更强的人工智能。越来越大的 LLM 和越来越庞大的训练数据集 使得聊天机器人可以通过大学考试,甚至医学院的入学考试。然而,所有这些增长都存在缺点:随着模型变得更大,它们也变得更加笨重、耗能且难以运行和构建。更小的模型和数据集可以帮助解决这个问题。这就是为什么人工智能开发人员,即使在一些最大的科技公司,也开始重新审视和评估小型化人工智能模型。
例如,在 9 月,微软研究人员团队发布了一份技术报告,介绍了一种名为 phi-1.5 的新语言模型。Phi-1.5 由 13 亿个参数组成,约为 ChatGPT 免费版本的基础模型 GPT-3.5 大小的百分之一。GPT-3.5 和 phi-1.5 也共享相同的通用架构:它们都是基于 Transformer 的神经网络,这意味着它们通过映射语言的上下文和关系来工作。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
但是,尽管 phi-1.5 的尺寸相对较小,但“它表现出许多更大的 LLM 的特征”,作者在他们的报告中写道,该报告以尚未经过同行评审的预印本论文形式发布。在基准测试中,该模型的性能优于许多类似规模的模型。它还展示了与其他大 5 到 10 倍的人工智能相当的能力。并且10 月份的最新更新甚至允许 phi-1.5 展示多模态——一种解释图像以及文本的能力。上周,微软宣布发布 phi-2,这是 phi-1.5 的后续产品,具有 27 亿个参数,该公司声称,phi-2 在仍然相对紧凑的封装中展示了更强大的能力。
毫无疑问,像 Bard、GPT-3.5 和 GPT-4 这样的大型 LLM 仍然比 phi 模型更强大。“我会说将 phi-1.5 与 GPT-4 进行比较就像将一名中学生和一名大学生进行比较,”微软研究院首席人工智能研究员兼 9 月份报告的作者之一 Ronen Eldan 说。但 phi-1.5 和 phi-2 只是最新的证据,表明小型人工智能模型仍然可能很强大——这意味着它们可以解决像 GPT-4 这样的巨型人工智能模型带来的一些问题。
首先,训练和运行一个拥有超过 1000 亿个参数的人工智能模型需要大量能源。根据华盛顿大学计算机工程师 Sajjad Moazeni 的一项估计,全球 ChatGPT 一天的标准使用量可能消耗的电力相当于大约 33,000 个美国家庭在同一时间段内的用电量。根据上个月在Joule上发表的一项分析,如果谷歌将其所有用户的搜索引擎交互都替换为对 Bard 的查询,那么运行该搜索引擎将消耗与爱尔兰整个国家一样多的电力。这种电力消耗很大程度上来自通过如此密集的参数网络发送查询所需的所有计算能力,以及用于训练大型模型的大量数据。哈佛大学计算机工程师 Matthew Stewart 说,较小的人工智能需要更少的计算能力和能源来运行。这种能源回报是一种可持续性提升。
此外,资源密集程度较低的人工智能更易于访问。就目前而言,只有少数几家私营公司拥有资金和服务器空间来构建、存储、训练和修改最大的 LLM。更多人可以开发和研究较小的模型。Mila-魁北克人工智能研究所的计算和认知语言学研究员 Eva Portelance 说,缩小规模“在某种意义上可以使人工智能民主化”。“在不需要那么多数据,并且不需要模型那么大的情况下……,您正在使大型机构以外的人们有可能进行创新。” 这是缩小规模的人工智能实现新可能性的多种方式之一。
首先,更小的人工智能可以安装在更小的设备中。目前,大多数 LLM 的尺寸意味着它们必须在云端运行——它们太大而无法本地存储在未连接的智能手机或笔记本电脑上。然而,较小的模型可以单独在个人设备上运行。例如,Stewart 研究所谓的边缘计算,其目标是将计算和数据存储塞入本地机器,例如“物联网”小工具。他致力于开发足够紧凑的机器学习驱动的传感器系统,以便在单个无人机上运行——他称之为“微型机器学习”。Stewart 解释说,这样的设备可以实现诸如在偏远地区进行更先进的环境传感等功能。如果功能强大的语言模型变得同样小巧,它们将有无数的应用。在智能冰箱等现代电器或 Apple Watch 等可穿戴设备中,较小的语言模型可以实现类似聊天机器人的界面,而无需通过云连接传输原始数据。这将对数据安全带来巨大的好处。“隐私是主要好处之一,”Stewart 说。
尽管普遍规律是较大的人工智能模型功能更强大,但并非每个人工智能都必须能够做所有事情。智能冰箱内的聊天机器人可能需要理解常见的食物术语并撰写列表,但不需要编写代码或执行复杂的计算。过去的分析表明,大型语言模型可以被精简,甚至可以缩小多达 60%,而不会牺牲所有领域的性能。Stewart 认为,对于希望从人工智能热潮中获利的公司来说,更小、更专业的 AI 模型可能是下一个大浪潮。
然后,还有一个更根本的可解释性问题:机器学习模型在多大程度上可以被其开发人员理解。纽约大学研究人工智能的计算认知科学家 Brenden Lake 解释说,对于较大的人工智能模型,基本上不可能解析每个参数的作用。这就是人工智能的“黑匣子”:开发人员构建和运行模型,而对算法中每个权重完成的任务没有任何真正的了解。在较小的模型中,确定因果关系并进行相应的调整更容易,但通常仍然很困难。“我宁愿尝试理解一百万个参数,也不愿尝试理解十亿个参数,”Lake 说。
对于 Lake 和 Portelance 来说,人工智能不仅仅是构建尽可能强大的语言模型,还在于深入了解人类如何学习以及我们如何通过机器更好地模仿它。大小和可解释性是创建有助于阐明我们自身思维的模型中的关键因素。对于大型人工智能模型——通常在更大的数据集上训练——训练信息的广度可能会掩盖局限性,并使其看起来好像算法理解了它不理解的东西。相反,对于更小、更易于解释的人工智能,解析算法为什么产生输出要容易得多。反过来,科学家可以利用这种理解来创建“更具认知合理性”且可能总体上更好的人工智能模型,Portelance 说。他们指出,人类是认知和学习的黄金标准:我们可以吸收如此多的信息,并从非常少的信息中推断出模式。有充分的理由尝试研究这种现象并通过人工智能复制它。
与此同时,“在大型数据集上训练大型模型的回报正在递减,”Lake 说。最终,找到高质量数据成为一项挑战,能源成本不断攀升,模型性能的提升速度也越来越慢。相反,正如他自己过去的研究表明的那样,机器学习的重大进展可能来自关注更精简的神经网络并测试替代训练策略。
微软研究院高级首席人工智能研究员 Sébastien Bubeck 对此表示赞同。Bubeck 是 phi-1.5 背后的开发人员之一。对他来说,研究缩小规模的人工智能的目的是“找到智能火花从算法中涌现出来的最小成分”。一旦你理解了这些最小的组成部分,你就可以在此基础上进行构建。通过使用较小的模型来处理这些重大问题,Bubeck 希望以尽可能经济的方式改进人工智能。
“通过这种策略,我们在构建模型时会更加谨慎,”他说。“我们正在采取更慢、更深思熟虑的方法。” 有时,稳扎稳打才能赢得比赛——有时,更小才能更聪明。