教机器看世界

探索人工智能神经网络如何处理照片,产生深刻见解和奇特现象

大多数下午,我都会在牧场边消磨时光。很快我就开始看到一些东西。一个人影从白桦林中走出,径直朝我跑来。通常是绵羊人,但有时是老鼠,有时是我的女朋友。有时是背上有星星的羊.

—村上春树,《
寻羊冒险记》, 1982

人工智能最近一直是新闻热点,这得益于日益廉价的计算机处理能力,这种能力实际上已成为近乎普遍的商品。兴奋点围绕着被称为深度卷积神经网络或 ConvNets 的数学抽象概念展开。应用于照片和其他图像时,实施 ConvNets 的算法可以从面部识别个人,将物体分类为 1,000 个不同的类别(猎豹、哈士奇、草莓、双体船等等)——并且可以描述他们是否看到“两个披萨放在炉灶烤箱上”或“一辆红色摩托车停在路边”。所有这些都无需人工干预。研究人员正在研究这些强大算法的内部机制,他们对所发现的美丽事物感到惊讶、困惑和着迷。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事能够拥有未来。


谷歌科学家开发了一种名为 Inceptionism 的技术,用于探索神经网络的工作原理。它以名为 DeepDream 的开源代码形式提供,可以将普通照片变成奇异而美丽的图像,其中眼睛、昆虫和奇怪的生物从场景中浮现出来。
照片:Liz Tormes

人工智能的春天

ConvNets 是如何工作的?从概念上讲,它们只比 20 世纪 80 年代和 90 年代初工程师和学习理论家开发的人工神经网络落后一两代。而后者又是从神经科学家在实验动物的视觉系统中发现的回路中抽象出来的。早在 20 世纪 50 年代,一些先驱者就在青蛙的视网膜中发现了一些细胞,这些细胞对在静止背景上移动的小黑点反应强烈,即著名的“昆虫探测器”。托尔斯滕·威塞尔和已故的戴维·H·休贝尔(当时都在哈佛大学)在 20 世纪 60 年代初对大脑外层表面接收视觉信息的部分(初级视觉皮层)进行记录时,发现了一组他们称之为“简单”细胞的神经元。这些神经元对动物视觉视野特定区域中特定方向的暗条或亮条做出反应。尽管这些细胞对定向线在视觉空间中的位置非常挑剔,但第二组“复杂”细胞对该线的确切位置不太在意。威塞尔和休贝尔假设了一个布线方案来解释他们的发现,这个模型产生了巨大的影响。它由多层细胞组成——第一层对应于输入细胞,这些细胞携带眼睛捕获的视觉信息。这些细胞对光点反应最佳。它们馈送到第二层神经元(简单细胞),简单细胞又与第三层神经元(复杂细胞)对话。

每个细胞本质上都是一个处理元件或单元,它计算其输入的加权和,如果总和足够大,则打开该单元的输出;否则,它保持关闭状态。单元的布线方式决定了输入层中对任何方向的边缘做出反应的细胞如何转换为关心特定方向和位置的简单细胞,然后转换为丢弃部分空间信息的单元。随后在猴子视觉皮层的一个区域发现了对猴子或人的面孔视图做出反应的神经元,这进一步加强了这种想法——视觉处理发生在处理阶段的层次结构中,信息向上流动,从关心亮度、方向和位置等低级特征的单元到以更抽象的方式表示信息的单元,例如任何给定面孔或特定面孔(例如祖母的面孔)的存在。顾名思义,这种处理层级联被称为前馈网络。

ConvNets 的运作方式也类似于这些专门的网络。第一层单元表示原始图像,而后续层提取越来越抽象的特征。最后一个输出层可能由 1,000 个单元组成,每个单元代表上述视觉对象类别之一。它有效地决定了图像中存在哪个对象。其他信号编码了网络对其最终决策的信心。

这些前馈网络的现代后代非常臃肿,拥有 20 层或更多层。每个处理层都有自己的布线方案,指定哪个单元影响哪个其他单元以及影响的强度。整个网络可能具有 1000 万或更多个称为权重的参数。并且每个参数都必须分配某个数值,正数或负数。这些大量的数字无法凭直觉或猜测获得;它们必须手动设置,这是一项不可能完成的任务。

这就是机器学习的用武之地。这些参数的设置发生在学习阶段,在此阶段,网络会显示一百万张或更多张单个物体的图片,以及标签,例如“哈士奇”或“猎豹”。想象一下妈妈给她的蹒跚学步的孩子看图画书,指着一幅画说:“狗狗”。在每次这样的展示之后,网络都会根据其权重的某些初始随机设置做出猜测。

然后对这些权重进行微调,以减少网络输出(对其所看物体的猜测)与正确标签之间不可避免的错配。这个过程一遍又一遍地重复。监督学习(书呆子式的术语是反向传播误差,或反向传播)在计算上非常昂贵,并且仅由于广泛使用为支持视频游戏而开发的所谓图形处理单元才变得可行。一旦训练完成,网络就会被冻结——它停止标签练习——现在可以处理新的图像,即以前从未见过的图像,并且可以猜测它们的身份,通常具有接近人类的准确性。

机器学习在学术界和工业界风靡一时,应用数学家和计算机科学家团队竞相开发更智能的算法来优化性能。

这些网络究竟在做什么?

尽管相对简单,但 ConvNets 可以产生意想不到的惊喜。是的,它们可以正确识别您的度假照片是哈士奇还是秋海棠,但它们有时也会得出荒谬的结论。怀俄明大学的 Anh Nguyen 和 Jeff Clune 以及康奈尔大学的 Jason Yosinski 的工作就是一个例证。为了揭示网络黑匣子的内部情况,计算机科学教授 Clune 和他的学生开发了技术来发现可以从训练好的 ConvNet 中的特定单元中引发强烈激活的图片,询问“这个单元真正喜欢和想要看到什么?” 并且这些图像与网络在婴儿期(接受训练时)遇到的图片有多相似?该团队从随机图像开始,并反复“进化”它们,直到网络以高度的信心确定它们是猎豹、手持遥控器或它接受过训练的其他视觉对象类别。预期是进化算法将发现最忠实地代表猎豹本质(猎豹的柏拉图式理念)的图像。

令他们惊讶的是,生成的图像通常完全无法识别,基本上是垃圾——色彩鲜艳、嘈杂的图案,类似于电视静电。尽管 ConvNet 以 99.99% 的信心在图像中看到了猎豹,但没有人会将其识别为一只又大又快的非洲猫科动物。请注意,计算机科学家没有修改 ConvNet 本身——它仍然可以正确识别猎豹的图片,但奇怪的是,它也坚持认为这些看似嘈杂的图像属于同一对象类别。生成这些愚弄图像的另一种方法产生了包含可识别纹理和几何结构碎片的图片,网络自信但错误地认为它是吉他。而且这些并非罕见的例外。

我怀疑,如果在记录视觉大脑深处的面部细胞的同时进行相同的图像操作,这个过程将不会收敛到如此荒谬的图像,而是会捕捉到关于面部本质的一些本质的东西。

这些伪造图像突出了人类和计算机理解视觉对象方式之间的巨大差距。通过在动物园观看猎豹或在自然纪录片中看到猎豹追逐瞪羚,我们建立起对这些猫科动物的内在表征,使我们能够描述它们。如果被迫,我们大多数人甚至可以画出这些优雅动物的卡通,并说明它们与狮子或家猫的区别。但是计算机对此背景一无所知。它们得到的只是一百张猎豹照片和无数张非猎豹照片。在不了解关于猫的任何信息(它们有腿、爪子、皮毛、尖耳朵等等)的情况下,网络必须找出少量训练图像中哪些特征是被称为猎豹的物体类别的特征。这些相同的特征也可以在各种其他误导性图像中找到。

美国哲学家约翰·塞尔在他著名的“中文房间”论证中指出了这一差距,在该论证中,一位不会说中文的人能够通过遵循一套精心设计的英文指令来操作汉字,从而对用中文提出的问题提供连贯的答案,即使这个人根本不知道这些汉字的意思。塞尔发明了这个有力的思想实验来支持他的主张,即计算机(就像中文房间里的人一样)永远无法理解任何东西——它们只是遵循一套指令,使它们看起来很智能。今天仍然如此。但在未来十年,机器将变得更加复杂,并且更难愚弄它们。它们与我们之间的差距将缩小。的确,与塞尔非常不同,我确实相信,一个正确表述的意义理论,与意识理论密切相关,将使我们最终弥合这一差距——然后真正智能的机器将会出现。

树木长出鸟头

如果您认为艺术和算法除了首字母相同之外没有任何共同之处,请考虑另一种理解这些网络内部结构的方式。在 6 月 17 日的博客文章中,谷歌的三位软件工程师 Alexander Mordvintsev、Christopher Olah 和 Mike Tyka 描述了一种称为 Inceptionism 的技术,这是一个具有营销天才的名称,指的是 2010 年流行的心理科幻惊悚片。程序员向完全训练好的机器学习网络呈现一个起始图像,然后专注于输入层(相当于眼睛的视网膜)和对对象进行分类的最终输出层之间的特定层中的人工神经元。然后,工程师调整输入图像以最大化他们关注的单元的响应。如果他们专注于一组类似休贝尔和威塞尔的单元,这些单元提取水平边缘,则在原始图像中添加水平线将增强它们的内部响应。或者,如果他们专注于网络上层中编码眼睛的单元,则在图像中插入眼睛将最大化它们的放电率。图像缓慢变形;可以将其视为受控幻觉。当专注于上层中的鸟类单元时,Inceptionism 开始对鸟类进行成像,并将它们叠加到原始图像上。这会打开鸟类单元,从而进一步驱动算法来增强图像中鸟类的显着性,依此类推。只需在网上搜索“Inceptionism”,您就会明白我的意思。毫不奇怪,这篇 6 月份的帖子已在网上疯传。

这些图像怪异、陌生但引人入胜,而且通常非常赏心悦目。在空旷的天空中,鸟类变得可见。猫科动物叠加在人群中人们的脸上。一条巨大的鱼在天空中复活。充满意义的图案出现在树叶中。城堡隐约可见,在空旷的沙漠景观背景中盘旋。深度网络进入睡眠并做梦。这太神奇了。

许多人注意到这些图像与服用 LSD、麦司卡林或裸盖菇素蘑菇产生的幻觉之间惊人的相似之处。为了回应爆炸式的兴趣,谷歌发布了名为 DeepDream 的开源代码,用于生成此类图像并将它们组装成电影(请参阅 http://bit.ly/1FcTca2)。对于我们这些不会编程的人来说,一家初创公司将收取少量费用来修改您提供的任何图像。

对我这个持有执照的神经科学家来说,最诱人的是大脑和 ConvNets 行为方式之间的结构相似性。如果让 ConvNets 自由发挥,它们会梦到什么?电子羊?或者也许是猪和蜗牛的杂交体,闪烁着迷幻的彩虹色?

© . All rights reserved.