在 20 世纪 50 年代,当计算机开始在跳棋上击败人类并证明数学定理时,它们引起了极大的轰动。在 20 世纪 60 年代,人们越来越希望科学家可能很快能够在硬件和软件中复制人脑,并且“人工智能”很快将在任何任务上与人类的表现相匹配。1967 年,今年早些时候去世的麻省理工学院的马文·明斯基宣称,人工智能的挑战将在一代人之内得到解决。
当然,事实证明这种乐观情绪为时过早。旨在帮助医生做出更好诊断的软件以及模仿人脑的网络(用于识别照片内容)未能达到最初的炒作。早期算法缺乏复杂性,并且需要比当时可用的更多数据。计算机处理能力也过于缓慢,无法为能够执行近似人类思维复杂性所需的大量计算的机器提供动力。
到 2000 年代中期,构建具有人类水平智能的机器的梦想几乎在科学界消失了。当时,即使“人工智能”这个术语似乎也离开了严肃科学的领域。科学家和作家将从 1970 年代到 2000 年代中期的这段希望破灭的时期描述为一系列“人工智能寒冬”。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将有助于确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
十年变化真大。从 2005 年开始,人工智能的前景发生了翻天覆地的变化。那时,深度学习(一种从脑科学中汲取灵感来构建智能机器的方法)开始崭露头角。近年来,深度学习已成为推动人工智能研究向前发展的独特力量。主要的信息技术公司现在正在向其开发投入数十亿美元。
深度学习是指模拟神经元网络,这些网络逐渐“学习”识别图像、理解语音甚至自行做出决策。该技术依赖于所谓的 искусственные нейронные сети(人工神经网络)——当前人工智能研究的核心要素。人工神经网络并非精确地模仿实际神经元的工作方式。相反,它们基于一般的数学原理,使它们能够从示例中学习,以识别照片中的人或物体,或翻译世界主要语言。
深度学习技术改变了人工智能研究,重振了计算机视觉、语音识别、自然语言处理和机器人技术的失落雄心。首批产品于 2012 年推出,用于理解语音——您可能熟悉 Google Now。紧随其后的是用于识别图像内容的应用,该功能现已纳入 Google 相册搜索引擎。
任何对笨拙的自动电话菜单感到沮丧的人都可以体会到在智能手机上使用更好的个人助理的巨大优势。对于那些还记得几年前物体识别有多糟糕的人来说——可能会将无生命物体误认为动物的软件——计算机视觉方面的进步令人难以置信:我们现在拥有在某些条件下几乎可以像人类一样识别图像中的猫、石头或人脸的计算机。事实上,人工智能软件现在已成为数百万智能手机用户生活中常见的固定装置。就我个人而言,我很少再打字发短信了。我经常对着手机说话,有时它甚至会回复我。
这些进步突然打开了该技术进一步商业化的大门,而且这种兴奋感仍在持续增长。公司竞相争夺人才,深度学习专业的博士学位是一种极为稀缺且需求量极高的商品。许多在该领域拥有专业知识的大学教授——据一些统计,大多数——已被从学术界拉到工业界,并配备了设备完善的研究机构和丰厚的薪酬待遇。
克服深度学习的挑战带来了惊人的成功。神经网络在围棋比赛中战胜顶尖棋手李世石的消息占据了显要的头条新闻。应用范围已扩展到涵盖人类专业知识的其他领域——而且不仅仅是游戏。一种新开发的深度学习算法据称可以像心脏病专家一样通过磁共振成像诊断心力衰竭。
智能、知识和学习
为什么人工智能在过去的几十年里遇到了如此多的障碍?原因是,我们对周围世界的知识大多没有以书面语言形式化为一组明确的任务——这是编写任何计算机程序的必要条件。这就是为什么我们一直无法直接编程计算机来完成我们人类轻松完成的许多事情——无论是理解语音、图像或语言还是驾驶汽车。试图这样做——在精心设计的数据库中组织事实集,以使计算机具有智能的副本——收效甚微。
这就是深度学习的用武之地。它是更广泛的人工智能学科(称为机器学习)的一部分,机器学习基于用于训练智能计算系统的原则——并最终让机器自学。其中一项原则与人类或机器认为什么是“好的”决策有关。对于动物来说,进化原则决定了应该做出能够优化生存和繁殖机会的行为的决策。在人类社会中,好的决策可能包括带来地位或幸福感的社会互动。但是,对于机器(例如自动驾驶汽车)而言,决策质量取决于自动驾驶汽车在多大程度上模仿了称职的人类驾驶员的行为。
在特定环境中做出良好决策所需的知识不一定以可以转化为计算机代码的方式显而易见。例如,老鼠了解周围环境,并且天生就知道在哪里嗅探以及如何移动腿、寻找食物或配偶以及躲避捕食者。没有程序员能够指定一组逐步的指令来产生这些行为。然而,这些知识被编码在啮齿动物的大脑中。
在创建可以自学训练的计算机之前,计算机科学家需要回答诸如人类如何获取知识等基本问题。有些知识是天生的,但大多数是从经验中学习的。我们凭直觉知道的东西无法转化为计算机执行的清晰步骤序列,但通常可以从示例和实践中学习。自 1950 年代以来,研究人员一直在寻找并试图改进通用原则,这些原则允许动物或人类——甚至机器——通过经验获取知识。机器学习旨在建立称为学习算法的程序,该程序允许机器从呈现给它的示例中学习。
点击或轻触放大

图表作者:Jen Christiansen;PUNCHSTOCK (面孔)
机器学习科学在很大程度上是实验性的,因为不存在通用的学习算法——没有一种算法能够使计算机很好地学习给定的每项任务。任何知识获取算法都需要在特定于手头情况的学习任务和数据上进行测试,无论是识别日落还是将英语翻译成乌尔都语。没有办法证明对于任何给定的情况,它将始终比所有其他算法更好。
人工智能研究人员已经对这一原理进行了正式的数学描述——“天下没有免费的午餐”定理——该定理表明,不存在解决每个现实世界学习情况的算法。然而,人类行为显然与该定理相矛盾。我们似乎在头脑中拥有相当通用的学习能力,使我们能够掌握进化没有为我们的祖先准备的众多任务:下棋、建造桥梁或在人工智能领域进行研究。
这些能力表明,人类智能利用了关于世界的通用假设,这些假设可以作为创建具有通用智能形式的机器的灵感。正是出于这个原因,人工神经网络的开发者采用了大脑作为设计智能系统的粗略模型。
大脑的主要计算单元是称为神经元的细胞。每个神经元通过细胞之间称为突触间隙的微小间隙向其他神经元发送信号。神经元跨越间隙发送信号的倾向以及该信号的幅度被称为突触强度。随着神经元“学习”,其突触强度会增加,并且当受到电脉冲刺激时,它更有可能向其邻居发送消息。
脑科学影响了人工神经网络的出现,这些网络使用软件或硬件来创建虚拟神经元。人工智能子领域(称为连接主义)的早期研究人员假设,神经网络将能够通过逐渐改变神经元之间的连接来学习复杂任务,从而使神经活动模式能够捕获其输入的内容,例如图像或对话片段。随着这些网络接收到更多示例,学习过程将通过更改连接神经元之间的突触强度来继续,以实现对日落图像等更准确的表示。
关于日落的课程
当前一代神经网络扩展了连接主义的开创性工作。这些网络逐渐更改每个突触连接的数值,这些数值表示该连接的强度,从而表示神经元将信号传输到另一个神经元的可能性。深度学习网络使用的算法每次观察到新图像时,都会稍微更改这些值。这些值稳步地朝着那些允许神经网络更好地预测图像内容的值迈进。
为了获得最佳效果,当前的學習演算法(学习算法)需要人类的密切参与。这些算法中的大多数使用有监督学习,其中每个训练示例都附带有关正在学习内容的由人手工制作的标签——例如,日落的照片与写着“日落”的标题相关联。在这种情况下,有监督学习算法的目标是将照片作为输入,并生成图像中主要对象的名称作为输出。将输入转换为输出的数学过程称为函数。产生此函数的数值(例如突触强度)对应于学习任务的解决方案。
死记硬背地产生正确答案很容易,但有点无用。我们想教算法什么是日落,但随后让它识别任何日落的图像,即使是它没有训练过的日落。辨别任何日落的能力——换句话说,将学习推广到特定示例之外——是任何机器学习算法的主要目标。事实上,任何网络的训练质量都是通过使用以前未见过的示例进行测试来评估的。正确推广到新示例的难度在于,存在几乎无限多的可能变化,这些变化仍然对应于任何类别,例如日落。
为了成功地从观察到的大量示例中进行推广,深度学习网络中使用的学习算法不仅需要示例本身。它还依赖于关于数据的假设和关于特定问题的可能解决方案的假设。内置于软件中的典型假设可能假设,如果特定函数的数据输入相似,则输出不应发生根本性变化——更改猫图像中的几个像素通常不应将动物变成狗。
一种结合了图像假设的神经网络称为卷积神经网络;它已成为推动人工智能复兴的关键技术。深度学习中使用的卷积神经网络具有许多层神经元,这些神经元的组织方式使得输出对图像中主要对象的更改不太敏感,例如当其位置略有移动时——训练有素的网络可能能够从不同角度识别单独照片中的人脸。卷积网络的设计灵感来自视觉皮层的多层结构——我们大脑中接收眼睛输入的部分。卷积神经网络中虚拟神经元的许多层使网络“深入”,从而更好地了解周围的世界。
深入
在实践层面,使深度学习成为可能的进步来自于大约 10 年前出现的具体创新,当时人们对人工智能和神经网络的兴趣达到了几十年来的最低点。一个由政府和私人捐助者资助的加拿大组织,加拿大高级研究所 (CIFAR),通过赞助多伦多大学的 Geoffrey Hinton 领导的项目,帮助重燃了火焰。该项目还包括纽约大学的 Yann LeCun、斯坦福大学的 Andrew Ng、加州大学伯克利分校的 Bruno Olshausen、我和其他几个人。那时,人们对这一研究方向的负面态度使得发表文章甚至说服研究生在该领域工作都很困难,但我们中的一些人强烈地感到,向前迈进非常重要。
当时对神经网络的怀疑部分源于这样一种信念,即训练神经网络是徒劳的,因为优化它们的行为涉及挑战。优化是数学的一个分支,试图找到一组参数的配置以达到数学目标。在这种情况下,参数称为突触权重,表示从一个神经元发送到另一个神经元的信号强度。
目标是以最少的错误次数进行预测。当参数和目标之间的关系足够简单时——更准确地说,当目标是参数的凸函数时——可以逐渐调整参数。这种情况会一直持续到它们尽可能接近产生最佳可能选择的值,称为全局最小值——这对应于网络产生的最低可能的平均预测误差。
然而,一般来说,训练神经网络并非如此简单——并且需要所谓的非凸优化。这种类型的优化提出了更大的挑战——许多研究人员认为这个障碍是无法克服的。学习算法可能会陷入所谓的局部最小值,在这种情况下,它无法通过稍微调整参数来减少神经网络的预测误差。
直到去年,关于神经网络由于局部最小值问题而难以训练的神话才被打破。我们在研究中发现,当神经网络足够大时,局部最小值问题会大大减少。大多数局部最小值实际上对应于在几乎与全局最小值的最优值相匹配的水平上学习知识。
尽管理论上可以解决优化的理论问题,但构建具有两层或三层以上的大型网络通常会失败。从 2005 年开始,CIFAR 支持的工作取得了突破,克服了这些障碍。2006 年,我们设法使用逐层进行的技术训练了更深层次的神经网络。
后来,在 2011 年,我们找到了一种更好的方法来训练更深层次的网络——具有更多层虚拟神经元的网络——通过改变每个处理单元执行的计算,使它们更像生物神经元实际计算的内容。我们还发现,在训练期间将随机噪声注入到神经元之间传输的信号中(类似于大脑中发生的情况),使它们能够更好地学习正确识别图像或声音。
两个关键因素促进了深度学习技术的成功。计算速度立即提高了 10 倍,这要归功于最初为视频游戏设计的图形处理单元,这使得可以在合理的时间内训练更大的网络。推动深度学习发展的另一个原因是,可以获得大量的标记数据集,学习算法可以在其中识别正确答案——例如,“猫”,当检查图像时,猫只是其中的一个元素。
深度学习最近取得成功的另一个原因是它能够学习执行一系列计算,逐步构建或分析图像、声音或其他数据。网络的深度就是此类步骤的数量。人工智能擅长的许多视觉或听觉识别任务都需要深度网络的许多层。事实上,在最近的理论和实验研究中,我们已经证明,如果不使用足够深的网络,就无法有效地完成其中一些数学运算。
深度神经网络中的每一层都会转换其输入并产生一个输出,该输出被发送到下一层。网络在其更深层表示更抽象的概念,这些概念更远离初始原始感官输入。实验表明,网络中更深层的人工神经元倾向于对应于更抽象的语义概念:例如,视觉对象,例如桌子。即使“桌子”的概念不在网络训练的类别标签中,对桌子图像的识别也可能来自更深层的神经元的处理。而桌子的概念本身可能只是一个中间步骤,用于创建更抽象的概念,该概念可能在更高的层级被网络归类为“办公室场景”。
超越模式识别
直到最近,人工神经网络主要因其执行任务的能力而脱颖而出,例如识别静态图像中的模式。但是另一种类型的神经网络也在取得进展——特别是对于随时间推移而发生的事件。递归神经网络已证明有能力正确执行一系列计算,通常用于语音、视频和其他数据。顺序数据由按顺序相互跟随的单元组成——无论是音素还是整个单词。递归神经网络处理其输入的方式与大脑的工作方式有相似之处。当处理来自感官的输入时,在神经元之间传递的信号不断变化。这种内部神经状态会以取决于大脑当前从周围环境接收的输入的方式发生变化,然后在发出导致身体运动的一系列命令,以实现特定目标。
递归网络可以预测句子中的下一个单词是什么,这可以用于一次生成新的单词序列。它们还可以承担更复杂的任务。在“阅读”完句子中的所有单词后,网络可以猜测整个句子的含义。然后,一个单独的递归网络可以使用第一个网络的语义处理将句子翻译成另一种语言。
对递归神经网络的研究在 1990 年代后期和 2000 年代初期经历了低潮。我的理论工作表明,它们在学习检索来自遥远过去的信息(即正在处理的序列中的最早元素)时会遇到困难。试想一下,当您刚刚到达最后一页时,尝试逐字背诵一本书的前几句话。但是,一些进步通过使这些网络能够学习存储信息以使其持续更长时间,从而减轻了其中的一些问题。神经网络可以使用计算机的临时内存来处理多个分散的信息片段,例如文档中分散在不同句子中的想法。
深度神经网络在经历了漫长的人工智能寒冬后的强劲复苏不仅仅是一场技术上的胜利。它还为科学社会学提供了教训。特别是,它强调需要支持挑战技术现状的想法,并鼓励多元化的研究组合,以支持暂时失宠的学科。