三十年前,美国政府启动了人类基因组计划,这是一项为期 13 年的努力,旨在对人类物种的所有基因进行测序和绘制图谱。尽管最初受到怀疑甚至反对,但该项目此后改变了遗传学领域,如今被认为是历史上最成功的科学事业之一。
现在,情报高级研究计划署 (IARPA) 是一个为情报界设立的研究机构,效仿国防部著名的 DARPA,已投入 1 亿美元用于一个类似规模的宏伟项目。“皮层网络机器智能”计划 (MICrONS) 旨在逆向工程大脑皮层一立方毫米的区域,研究其进行计算的方式,并利用这些发现来更好地改进机器学习和人工智能领域的算法。IARPA 已招募了三个团队,分别由哈佛大学的生物学家和计算机科学家大卫·考克斯、卡内基梅隆大学的计算机科学家李太星和贝勒医学院的神经科学家安德烈亚斯·托利亚斯领导。每个团队都提出了自己解决这个问题的五年计划。
“这是一项巨大的投资,因为我们认为这是一个至关重要的挑战,并且[它将对]情报界以及更广阔的世界产生变革性影响,”IARPA 的雅各布·沃格尔斯坦说,他负责管理 MICrONS 计划。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事能够持续下去。
MICrONS 作为奥巴马总统“脑计划”的一部分,旨在推动受大脑启发的计算技术的现状向前发展。当今的许多技术已经依赖于一类称为人工神经网络的算法,顾名思义,这些算法的灵感来自大脑的结构(或至少是我们对大脑结构的了解)。由于计算能力的大幅提升以及互联网上大量数据的可用性,Facebook 可以识别面孔,Siri 可以识别声音,汽车可以自动导航,计算机可以在国际象棋等游戏中击败人类。然而,这些算法仍然很原始,依赖于高度简化的信息模式分析过程。根据追溯到 20 世纪 80 年代的模型,神经网络在杂乱的环境中往往表现不佳,在这些环境中,计算机试图识别的物体隐藏在大量物体中,其中许多物体是重叠或模糊不清的。这些算法的泛化能力也很差。例如,看到一两个狗的例子并不能教会计算机如何识别所有的狗。
另一方面,人类似乎毫不费力地克服了这些挑战。我们可以在人群中认出朋友,在嘈杂的环境中专注于熟悉的声音,并根据一个或几个例子推断声音或图像中的模式。我们不断地学习泛化,而不需要任何指令。因此,MICrONS 的研究人员转向大脑,以找到这些模型所缺失的东西。“这就是关键所在,”考克斯说。
虽然神经网络保留了大脑结构中的元素,但它们使用的计算并非直接复制自神经元用于处理信息的任何算法。换句话说,当前算法表示、转换和学习数据的方式是工程解决方案,主要由试错法决定。它们有效,但科学家并不真正知道为什么——当然不足以定义设计神经网络的方法。这种神经处理与大脑中相应的操作相似还是不同仍然未知。“因此,如果我们深入一层,从计算层面而不是仅仅从结构层面获取大脑的信息,我们可以增强这些算法,使其更接近大脑般的性能,”沃格尔斯坦说。
各个团队将尝试绘制啮齿动物皮层一立方毫米区域内所有神经元之间的完整电路。这个体积不到人脑百万分之一的大小,似乎非常小。但迄今为止,科学家们只能测量一次少数神经元的活动,或通过功能性磁共振成像获得的复合图像中包含的数百万神经元的活动。现在,MICrONS 的成员计划记录 10 万个神经元的活动和连接性,同时啮齿动物正在进行视觉感知和学习任务——这是一项相对巨大的壮举,因为它需要以纳米分辨率对长度为几毫米的电线弯曲和转动进行成像。“这就像通过测量每一英寸来创建美国公路地图,”沃格尔斯坦说。
尽管如此,沃格尔斯坦对近期对大规模神经科学研究的支持感到乐观。“随着‘脑计划’的出现,大量的新工具已经上线,用于在恢复详细电路图所需的分辨率和规模上探索大脑,”他说。“因此,现在是历史上一个独特的时刻,我们首次拥有了正确的工具、技术和科技,可以揭示大脑的布线图,精确到每个神经元和每个突触的水平。”
每个团队都计划以不同的方式记录大脑的路线图。考克斯的团队将使用一种称为双光子显微镜的技术来测量大鼠在接受训练以识别计算机屏幕上的物体时的大脑活动。研究人员会将一种对钙敏感的改良荧光蛋白引入啮齿动物体内。当神经元放电时,钙离子会涌入细胞,导致蛋白质发出更亮的光——因此,使用激光扫描显微镜,研究人员将能够观察神经元的放电情况。“这有点像窃听大脑,”考克斯说。“就像你可能监听电话来了解发生了什么一样,我们可以监听大脑重要的内部方面,同时动物还活着并且正在做某事。”
然后,大鼠大脑的一立方毫米区域将被送到同样在哈佛大学工作的生物学家和神经科学家杰弗里·利希特曼手中。在利希特曼的实验室里,它将被切成非常薄的切片,并在最先进的电子显微镜下成像,分辨率足以看到大脑细胞的所有线状延伸,这些延伸相互连接。托利亚斯的团队正在采用类似的方法,称为三光子显微镜,以观察小鼠大脑的更深层,而不仅仅是考克斯及其同事研究的顶层。
与此同时,李的团队计划采取一种更为激进的方式来绘制连接体。他们与哈佛医学院的遗传学家乔治·丘奇合作,计划使用 DNA 条形码技术:他们将用独特的核苷酸序列(条形码)标记每个神经元,并在突触之间化学连接条形码以重建电路。虽然这种方法无法提供与显微镜相同的空间信息水平,但李希望它会更快、更准确——前提是它能起作用。这项技术以前从未成功使用过。“但如果这种条形码技术奏效,它将彻底革新神经科学和连接体学,”李说。
而这一切仅仅构成了 MICrONS 项目的前半部分。科学家们接下来必须找到一种方法,使所有这些信息对机器学习中的算法有用。他们对如何做到这一点有一些想法。例如,许多研究人员认为大脑是贝叶斯式的——神经元以概率分布的形式表示感觉信息,根据先前的经验计算事件最可能的解释。这种假设主要基于大脑中的反馈回路——信息不仅向前流动,而且还有更多的连接向后流动。换句话说,研究人员假设感知不仅仅是从某些输入到某些输出的映射。相反,存在一个建设性的过程,“综合分析”,在这个过程中,大脑维护和创建世界的内部表征,产生期望和预测,使其能够解释传入的数据并计划如何使用它。“这是一个我们正在密切关注的指导原则——这种综合过程的标志,”考克斯说,“我们推测世界上可能存在什么,并根据我们实际看到的东西来测试它,并用它来驱动我们的感知。”
例如,视网膜通过产生电脉冲来对光做出反应,电脉冲被传递到视神经,然后传递到大脑,而视网膜实际上是一个二维结构。因此,当一个人看到一个物体时,大脑可能会使用这种概率模型从照射到视网膜二维表面的光线中推断出一个三维世界。如果是这样,那么大脑就找到了一种比我们当前的一组数学模型更擅长近似和推断变量的方法。毕竟,如果你正在观察一个有 100 个物体的场景,只考虑物体可能具有的前向和后向方向,这只是众多方向中的两个。那里就有 2100 种可能的模式。通过计算所有这些概率来获得答案是不可行的,然而大脑却毫不费力地完成了这项工作,并且可以处理无限数量的可能方向:不同的距离、不同的旋转、不同的光照条件。“大脑所做的是展开这个[数据点的]流形,并使其易于分离,”托利亚斯解释说。
三个团队中的每个团队都招募了计算机科学家,将这些理论提炼成模型,然后他们将根据逆向工程的大脑数据对这些模型进行测试。“对于任何给定的算法描述,例如概率算法,您必须做出数百万种实现选择才能将该理论转换为可执行的代码,”沃格尔斯坦说。“在这大约一百万种选项中,某些参数和特征的组合将产生好的算法,而某些组合将导致低效或糟糕的算法。通过从大脑中提取这些参数设置,而不是像[我们一直在做的那样]在软件中猜测它们,我们有望将空间缩小到与大脑一致的一小部分实现。”
凭借这些内部模型,MICrONS 计划使机器更加自动化,尤其是在训练机器识别物体时,无需首先浏览数千个示例,在这些示例中,物品已按名称识别。沃格尔斯坦希望将无监督学习技术应用于帮助美国情报部门。“我们可能只有一个图片,或者一个我们想要预防的网络攻击的单一示例,或者一个导致问题的金融崩溃或天气事件的单一记录,”他说,“我们需要推广到可能出现相同模式的更广泛的环境中。这就是我们希望实现的:更好的泛化、更好的抽象能力、更好地利用稀疏数据。”
虽然研究人员一致认为,从大脑中推导出此类算法将是 MICrONS 最困难的部分——他们将不得不确定一种编码大脑如何处理信息和形成新连接的方法——但即使在项目的早期阶段,也仍然存在一些挑战。首先,他们对大脑的测量将产生大约 2 PB 的数据——相当于 25 万台笔记本电脑或 250 万张 CD 的内存。如此庞大的数据集的存储将很困难,IARPA 已与亚马逊合作寻找解决方案。此外,这些数据都是图像。挖掘其中的信息将需要一个称为分割的过程,在这个过程中,神经元的结构元素及其连接被分别着色,以便计算机可以更好地理解共享的特征和模式。“即使全世界都在为你着色,”利希特曼说,“也需要一生的时间才能将整个立方毫米区域着色完成。”相反,研究人员将致力于创建更先进的计算机视觉技术来分割数据。
利希特曼已经在从丘脑(感觉信息的接力站)的一部分生成的 100 TB 数据集(MICrONS 计划收集的数据集的二十分之一)中看到了成功。他团队的研究成果将于本月在《细胞》杂志上发表。“我们了解到,有时相同的轴突会从一个细胞跳到另一个细胞,以接触不同神经细胞上的相同位置,这表明丘脑的组织方式与人们预期的不同,”利希特曼说。也许这些结果将扩展到他们刚刚开始评估的皮层立方毫米区域。“我们知道我们可以处理大量数据,但现在我们将要做我们称之为巨量数据的事情,”他说。“这是一个巨大的进步。我们认为我们已准备好迈出下一步。”
数学家、菲尔兹奖章获得者、李的博士生导师大卫·芒福德没有隶属于 MICrONS,但他赞扬了这个项目。“这是真正的进步,”他说。“一旦此类数据集可用,那么看到你可以在深入了解神经元相互作用的方式方面做些什么是巨大的挑战。大规模记录在某个时候成为可能一直是我的梦想,我认为这个团队很可能就是实现这一目标的团队。”
“但我对将这些信息转移到人工神经网络的可能性持怀疑态度,”他补充道。“这有点遥远。”
即便如此,所有三个团队都对他们的工作将取得成果充满信心。“无论结果如何——无论是什么——都不是失败,”利希特曼说。“它可能不符合你的预期,但那是一个机会。我并没有因为我们的想法是否错误而失眠。没有想法。只是大脑真的存在,它真的很复杂,而且以前从来没有人真正见过它,所以让我们来看看。这有什么风险呢?”
他们还希望在 20 亿美元投资的人脑工程项目中遇到的困难中取得成功。考克斯解释说,他们的方法在技术上和后勤上都与人脑工程项目截然不同。事实上,通过首先观察自然,然后再尝试模拟大脑,他们基本上是以相反的方式工作的。而 MICrONS 基于团队合作的方法有望产生取得重大进展所需的合作和竞争。IARPA 打算公布其收集的数据,以便其他科学家可以贡献想法和研究。“即使它像看一粒沙子,”李说,“正如我的大学教授告诉我的那样,你可以在一粒沙子中看到上帝。”
编者注(2016 年 3 月 15 日):三个 IARPA 团队之一——第二个团队由李太星和乔治·丘奇领导——希望提供有关文章中提到的项目组织的更多细节,并提供了以下声明。“每个团队都处理该计划的所有三个领域:(1)理论、生理学和机器学习;(2)数据收集;以及(3)数据处理。IARPA 根据三个团队授予了六份独立的 MICrONS 合同,分别授予:(1)哈佛大学,由大卫·考克斯领导;(2)卡内基梅隆大学和哈佛大学韦斯生物启发工程研究所,分别由李太星和乔治·丘奇领导;以及(3)贝勒大学、艾伦脑科学研究所和普林斯顿大学,分别由安德烈亚斯·托利亚斯、克莱·里德和塞巴斯蒂安·承领导。在三个团队中,所有主要承包商都协同工作。这种组织的原因是不同的主要承包商具有不同的能力,因此他们根据需要组队,以确保每个团队都能完成项目的全部范围。”