传统神经网络的替代方案或能揭示人工智能幕后运作机制

尽管当前人工智能模型性能优异,但仍存在重大缺陷:它们需要大量资源且难以理解。 或许解决方案即将出现

Artificial intelligence neural network layers, conceptual illustration

神经网络层。

Thom Leach/Science Photo Library/Getty Images

ChatGPT 引发了人工智能炒作浪潮。 OpenAI 由大型语言模型 (LLM) 驱动的聊天机器人的出现,迫使领先的科技公司尽快跟进类似的应用程序。 开发强大的人工智能模型的竞赛仍在继续。 Meta 在 2023 年初推出了名为 Llama 的 LLM,而谷歌去年也推出了 Bard 模型(现已更名为 Gemini)。 其他提供商,如 Anthropic,也交付了 令人印象深刻的人工智能应用程序

然而,新型 LLM 绝非完美:训练它们需要大量时间和计算能力。 而且通常 不清楚它们是如何得出结果的。 事实上,当前的人工智能模型就像一个黑匣子。 你输入一些东西,它们会输出结果,但没有任何附带的解释。 这使得很难弄清楚程序是在胡编乱造(“幻觉”)还是在提供有意义的答案。 大多数公司专注于通过使用更多数据训练模型或针对特定任务优化模型来获得可靠的结果,例如解决数学问题

然而,人工智能模型的基本原理通常保持不变:算法通常基于神经网络,神经网络模仿我们大脑的视觉皮层。 但由麻省理工学院物理学家刘子明领导的专家团队现在开发出一种方法,在许多方面超越了传统的神经网络。 正如研究人员在 4 月下旬在尚未经过同行评审的预印本论文中报告的那样,所谓的柯尔莫哥洛夫-阿诺德网络 (KAN) 可以更有效地掌握各种任务,并比以前的方法更好地解决科学问题。 而且可能最大的优势是它们的结果可以重现。 专家们希望能够将 KAN 集成到 LLM 中,以提高其性能。


支持科学新闻报道

如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。 通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。


悉尼大学数学家 Geordie Williamson 说:“重要的是为数学中的人工智能寻找更高效、更可解释且训练强度更低的结构”,他没有参与这项工作。

有许多不同的机器学习算法,例如所谓的决策树和线性回归。 然而,自 2010 年代以来,神经网络已被纳入大多数应用程序中。 这些程序的结构基于哺乳动物视觉皮层的结构。 多个计算单元(神经元)分层排列,一层接一层,并通过边缘(突触)连接。 信号从前向后传播,并在每一层进行处理。 尽管这种程序的想法可以追溯到 1950 年代,但直到 2010 年代,计算机才足够强大到可以成功运行它们。

这是因为神经网络需要进行广泛的训练,才能使其输入(例如图像中的像素)产生适当的输出(例如图像的描述)。 对于训练,输入值被传输到第一层的“神经元”。 然后将这些值乘以相关“突触”的所谓权重(数值)。 如果乘积达到某个阈值,则将其传递到下一层。 然后,第二层的神经元采用来自第一层的突触的传入数值。 然后过程继续:第二层的神经元乘以后续突触的权重,这些权重被传递到第三层,依此类推,直到信号到达最终输出层。 在训练期间,神经网络调整突触的权重,以便输入产生所需的输出。

更详细地来说,以下是该过程的工作原理:第一层神经元(例如,n1、n2 和 n3)对应于输入。 程序被赋予要处理的值,例如图像的像素。 每个突触都有一个权重,该权重乘以前一个神经元的值。 如果乘积达到某个阈值,则结果被传递。 然后,第二层神经元接收相应的转发乘积。 如果多个突触通向一个神经元,则将相应的乘积加在一起。

通过这种方式,输入值逐层处理,直到在最后一层产生输出。 必须调整突触的权重,以便神经网络能够完成其任务,例如,提供图像的合适描述。 广泛的训练过程使用数十万个样本数据的输入,并且网络可以选择权重,使其可靠地完成其任务。

神经网络背后的原理最终可以简化为简单的数学任务。 您想要为某些输入数据(x1、x2、x3、...),例如图像像素,生成输出 (y)——例如,图像描述。 因此,您正在寻找合适的函数:f(x1、x2、x3、...) = y。 目标是确定一个函数,该函数为每种类型的图像提供相应的描述。 函数本身非常复杂,精确解似乎是无望的。

然而,神经网络提供了使用简单表达式逼近函数的可能性。 原则上,神经网络仅由线性项的串联组成:神经元的值乘以突触的权重并加在一起。 从数学的角度来看,出现了神经网络可以表示哪些函数的问题。 事实上,神经网络到底可以表示哪些函数? 如果函数非常复杂以至于无法简单表示怎么办? 这里的一个重要结果是“通用逼近定理”,它解决了这个问题。 近年来,专家们已经能够证明神经网络必须由最少层数组成才能令人满意地逼近某种类型的函数——从而解决期望的任务。

事实上,有一个数学结果允许将 f(x1、x2、x3、...) 类型的复杂函数精确地表达为更简单的项——而不仅仅是像传统神经网络那样进行逼近。 其基础是数学家弗拉基米尔·阿诺德和安德烈·柯尔莫哥洛夫在 1960 年代提出的定理。 根据该定理,依赖于众多输入(x1、x2、x3、...)的函数可以精确地表示为函数之和:可以添加 g1(x1)、g2(x2)、g3(x3)、...,每个函数仅依赖于一个变量 乍一看这可能仍然显得复杂,但从数学角度来看,这代表着极大的简化。 这是因为处理直接依赖于无数变量(如 x1、x2、x3、...)的函数极其困难。

刘的团队现在使用阿诺德和柯尔莫哥洛夫定理开发了 KAN,它可以提供更准确和可理解的结果。 “柯尔莫哥洛夫-阿诺德表示定理在神经网络社区中并非鲜为人知,”德国达姆施塔特工业大学计算机科学家 Kristian Kersting 说,他没有参与刘及其同事的最新研究。 在 1980 年代和 1990 年代,专家们认为这种方法不能用于神经网络。 尽管这种观点近年来发生了变化,但迄今为止,该原理的直接实现尚未成功。

KAN 的结构与传统神经网络的结构相似。 然而,权重没有固定的数值。 相反,它们对应于一个函数:w(x)。 这意味着突触的权重 (w) 取决于前一个神经元的值 (x)。 因此,在训练期间,神经网络学习调整权重,不是作为纯数值,而是作为突触的相关函数。 通过这种方式,至少在理论上,可以通过有限的网络来表示高度复杂的函数 f(x1、x2、x3、...)——从而使用人工智能高精度地解决任务。

突触函数的表示提供了另一个优势:更容易理解 KAN 的工作原理。 虽然像权重这样的简单数值意义不大,但函数的情况并非如此。 例如,您可以通过查看函数的相应图表来直观地识别输出如何依赖于输入。

然而,新网络也有一个明显的缺点:KAN 在学习过程中必须包含整个函数,而不仅仅是数值。 因此,训练阶段变得更加复杂,并且需要更多时间。

在他们的工作中,刘和他的同事将他们开发的 KAN 与传统的神经网络(称为多层感知器 (MLP))进行了比较。 在初步测试中,他们使用了各种已知函数 f(x1、x2、x3、...) = y 以及相应的数据 x1、x2、x3、... 和 y。 这里的任务是找出普通 MLP 和 KAN 可以多快地从数据中推导出底层函数。 结果证明,KAN 能够比同等大小的 MLP 更快地逼近函数。

然后,专家们在实际问题上测试了 KAN,例如求解偏微分方程,这在物理学中起着重要作用。 大多数此类方程没有已知的精确解,需要计算机来获得结果。 刘和他的同事发现,KAN 在求解这些方程方面也比 MLP 提供了更准确的结果。

此外,研究人员还将新网络应用于当前的科学问题,包括结理论的数学领域中的问题。 该领域的主要问题之一是如何找出结的不同二维表示是否实际上对应于同一个结。 2021 年,悉尼大学的 Geordie Williamson 和他的同事 使用神经网络来解决这个问题,并揭示了以前未曾预料到的联系。 正如刘的团队现在所展示的那样,KAN 可以产生完全相同的结果,但付出的努力更少。 虽然 Williamson 的团队不得不训练一个具有约 300,000 个参数的神经网络,但刘及其同事的研究中使用的 KAN 仅用 200 个参数就获得了更好的结果。

刘和他的同事乐观地认为,他们能够将他们的新方法应用于广泛的问题,从数学和物理学到改进 LLM。 人工智能社区在社交媒体上也对此充满热情:“机器学习 [ML] 的新时代已经开始!”一位用户在 X(前身为 Twitter)上写道。 软件开发人员 Rohan Paul 在同一平台上指出:“柯尔莫哥洛夫-阿诺德网络 (KAN) 看起来越来越像是要改变一切。”

然而,围绕 KAN 的炒作是否真的合理,只有在实践中才能明确。“KAN 也应该在 MLP 运行良好的领域进行评估,”Kersting 说。“如果没有这样的比较,就不清楚 KAN 是否是一种有希望的新替代方案。” 然而,与此同时,这位计算机科学家强调了这项新工作的价值。“我认为将该定理重新引起社区的注意非常好。 这些应用令人兴奋,即使它们并非深度学习社区的主要关注点。”

迄今为止,新方法的最大局限性是训练速度慢:对于相同数量的参数,KAN 的训练时间大约是传统 MLP 的 10 倍。 如果您想将该方法用于 LLM,这将成为一个特别的问题,因为 LLM 由于其庞大的规模已经需要很长的训练时间。 然而,根据刘的说法,KAN 的学习速度可以提高:“我身体里的物理学家会压制我编码员的个性,所以我没有尝试(知道)优化效率,”他在 X 上的帖子中写道。 由于该方法目前受到极大的关注,因此这种弱点可能很快就会得到解决。

本文最初发表于《科学世界》杂志,经许可转载。

© . All rights reserved.