大脑如何区分沃尔沃和玛莎拉蒂?

詹姆斯·迪卡洛是麻省理工学院脑与认知科学系神经科学教授,研究灵长类动物的视觉物体识别。

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点


詹姆斯·迪卡洛是麻省理工学院脑与认知科学系神经科学教授,研究灵长类动物的视觉物体识别。我曾有机会在五月下旬在第79届冷泉港实验室定量生物学研讨会上采访他,该研讨会重点介绍了关于认知的研究成果。在采访中,迪卡洛谈到了他的研究,也回答了一些基本问题,例如什么是物体识别。以下是经过编辑的采访文字记录——或者您可以观看完整视频

大众科学:吉姆,你能给我们一个物体识别的定义吗?

詹姆斯·迪卡洛: 我们都有对物体识别的直观感受。 它是将你的脸与其他人脸区分开来的能力,将汽车与其他汽车区分开来的能力,将狗与骆驼区分开来的能力,我们都直观地感受到这种能力。 但是,在理解我们的大脑如何能够完成这项任务方面取得进展是一个非常具有挑战性的问题,部分原因是定义它是什么和不是什么具有挑战性。 我们认为这个问题是理所当然的,因为它对我们来说似乎毫不费力。 然而,计算机视觉人员会告诉你,这是一个极其具有挑战性的问题,因为每个物体都会向你的视网膜呈现基本上无限数量的图像,因此你基本上永远不会看到每个物体的相同图像两次。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您正在帮助确保有关发现和塑造我们当今世界的想法的有影响力的故事的未来。


大众科学: 看起来物体识别实际上是神经科学和机器学习计算科学中的一个大问题?

迪卡洛 是的,不仅是机器学习,还有心理学或认知科学,因为我们看到的物体是世界上我们用来构建更高认知的来源,例如记忆和决策。 我应该伸手去拿这个吗,我应该避开它吗? 如果没有这些我们经常认为是理所当然的基础要素,我们的大脑就无法完成你所说的更高认知。

大众科学: 也许你可以谈谈在这个过程中大脑中实际发生了什么。

迪卡洛 几十年来人们都知道,大脑的一部分,即头部两侧的颞叶,在人类和非人类灵长类动物中,当丢失或受损时,会导致识别缺陷。 因此,我们有线索表明,这些物体识别算法就存在于那里。 但仅仅说你大脑的某个部分解决了这个问题还不够具体。 它仍然是非常大的一块组织。 解剖学告诉我们,那里存在着一个完整的区域网络,现在神经生理学的工具以及更先进的工具使我们能够深入研究神经活动,尤其是在非人类灵长类动物中。 然后,我们可以开始破译实际的计算,达到工程师可能达到的水平,例如,为了模仿我们头脑中发生的事情。

大众科学: 也许你可以更详细地说明你实际上是如何尝试找到这些网络的组成部分的。

迪卡洛 嗯,我想首先说,任何科学的基础实际上都是拥有对某种现象的预测模型的能力。 因此,对于物体识别领域,如果你想从工程角度模仿它,你首先需要定义你想要预测什么。 我们称之为核心物体识别的目标是你在观看图像仅 200 毫秒时所拥有的能力,这大约是你的眼睛在探索场景时停留在一个物体上的时间。 但是我们人类可以在这短短的时间窗口内做很多事情。 在这短短的 200 毫秒(五分之一秒)的瞥见中,我们可以轻松地识别一个或多个物体。 你可以看到这不是视觉的全部,但这是一个已定义的行为领域,现在我们可以开始在这个问题上取得一些进展。

大众科学: 好的,所以你有一个预测模型,然后你想测试该模型……

迪卡洛 嗯,所以我为你描述的是一个要理解的任务领域,我们称之为核心识别,我们知道,当然,图像会进入并通过眼睛处理,然后在大脑中的一系列视觉区域中移动以进行进一步处理,其方式有时很模糊,但我们可以记录那里的神经活动。 在我们之前其他人已经做过,现在我们正在更大规模地做。 我们可以记录神经活动,我们对大脑中一个叫做颞下皮层的地方特别感兴趣,它位于我们之前谈到的这个处理链的最高层。 我们发现那里的神经活动模式与一个非常简单的模型非常吻合,该模型可以非常准确地预测动物的感知以及我们自己的感知,即我们在核心领域进行识别的能力。

大众科学: 你可以预测,比如说,我正在观察背景中的一棵树,通过观察神经活动?

迪卡洛 这正是我所说的意思。 现在我们能够做到这一点的粒度仍然是积极研究的一部分,但我们当然可以进行“树木检测”。 通过观察神经活动。 我们可以预测受试者是否会报告说它看到了一棵树而不是一只狗,或者如果它报告说是一棵树而不是一辆汽车,以及它是否正在看一棵树而不是另一棵树。 我们现在正在尝试看看我们是否可以在逐个瞬间的基础上做到这一点,以及我们是否可以准确地预测受试者报告中的错误模式——这意味着受试者在看到猫时报告说是一只狗。

大众科学: 物体识别的问题是,如果我正在看那棵树,然后我稍微向左或向右移动,树会发生变化,或者我开始看到另一棵树。 这个模型是否仍然能够识别出那是一棵树,或者它是同一棵树?

迪卡洛: 我应该说得更清楚些。 这是模型必须处理的最大问题,当我说模型处理这个问题时,我的意思是已经记录了神经元直到颞下皮层的激活。 因此,一旦我们构建了一个读取颞下皮层活动的解码器,树的图像将被正确解码为树。 这是一个全新的图像,但该模型仍然可以预测你将看到什么,并且该模型将非常准确。

大众科学: 这对机器学习以及有一天甚至对理解神经回路中断的人们的问题有什么影响?

迪卡洛 从机器学习的角度来看,这些神经活动是机器学习人员所说的特征。 因此,这些是在图像上计算出的特征,它们是一组非常强大的特征。 许多人希望做的是能够拥有产生这些特征的算法。 因此,机器学习的大部分致力于寻找好的特征,而大脑的进化已经找到了一些好的特征,这基本上就是我们所报告的内容:这里有一些很好的特征。 这是它们的位置,这是我们关于它的证据。 因此,现在我们正在与机器学习科学家一起工作,以帮助构建所谓的编码算法来产生这些特征,并且在过去几年中,该领域在本质上是由大脑启发的模型驱动下取得了许多令人兴奋的进展,这些模型实际上现在是一些最先进的计算机视觉算法。

大众科学: 您正在做的宏伟愿景是从编码到神经激活,再到大脑中的解码和感知,对这一切进行建模。

迪卡洛 这正是宏伟愿景。 如果我们能够做到这一切,我们就可以说我们对这个行为领域有了完整的端到端理解。

大众科学 你认为这一切什么时候会发生?

迪卡洛 这取决于细节的程度,但我想说,肯定在未来十年内,我们将对核心基础水平的物体识别有非常好的理解,以至于许多工程师会感到满意。 我们不会知道它细致到突触水平,但我们会知道它,以至于这些算法可以非常准确地预测系统中各个级别的神经活动。

大众科学: 您认为这可以为有时会出错的电路提供一些见解吗?

迪卡洛 会影响识别的最常见的缺陷是通过中风或病变对颞下区域的重大损害,当然,很明显哪里出了问题:你已经去除了这些神经元。 现在也许这会带来可以绕过或替换它的方法。

颞叶还有其他缺陷,人们在区分面孔或极少数情况下在其他类型的物体之间存在缺陷。 它们不是很常见,但这类工作也应该与这些缺陷有关。 我们希望它也与孩子们如何学习阅读有关。 归根结底,无论你何时执行视觉任务,你都在依赖视觉系统中的这些类型的表征,因此我认为它将帮助我们理解更高层次的问题,例如,社会认知或像阅读障碍之类的事情。

大众科学: 尽管人们在电影中看到的那样,但现实世界中的机器人仍然在它们能做的事情上非常有限,其中一个大问题是它们识别和处理它们感知到的信息的能力。 您认为您的模型可以对此有所帮助吗?

迪卡洛 计算机视觉界现在已经在使用类似大脑的算法,下一个前沿是扩展任务领域,不仅是你 200 毫秒内所做的事情,还有当你用多次眼动探索场景或导航场景时你可能会做的事情。 为此,你必须随着时间的推移积累信息。 系统中会有更多的反馈。 我不会说我们可以完成这项工作,然后我们将拥有像你在《星际迷航》中看到的那样无所不能的机器人,但它将成为使我们能够迈出下一步的基础。

大众科学: 过去几年在视网膜假体方面已经开展了一些工作,正在追求的一种方法是将神经编码植入到其中一些假体中,以便它们可以像视网膜一样处理传入的光子。 您正在进行的这类工作是否有可能在某些方面与此相吻合?

迪卡洛 这实际上是我们现在最兴奋的事情之一。 有针对视网膜受损者的视觉假体,并且有各种方法。 但主要的方法是尝试绕过视网膜,并将空间活动模式重新注入,例如,在早期视觉区域或视网膜之后立即出现的皮层下区域之一,称为外侧膝状体核。 从工程的角度来看,这很有意义。 考虑到我们对你可能尝试如何做到这一点的了解,这很有意义。

缺点是尝试在非常高维的空间中获得图像,其中有许多像素,这些像素将类似于正常视觉。 但是我们正在最高级别上工作,在这个级别上,你的大脑已经将维度从数百万像素降低到更抽象的东西,大约是 100 个维度。 我们或许能够模拟非常丰富的视觉全景。 这可能是一种更好的思考脑机接口的方式,因为我们理解它们,你可能只有 100 种方式来注入信号,100 个通道而不是数百万个通道来创建一个丰富的感知空间。

大众科学: 总结一下,您的工作正在做的是采取我们所有人都可以关联到的非常基本的东西,然后对这个真正巨大的挑战达成基本的物理和理论理解。

迪卡洛: 是的,我认为这说得非常好,这确实是神经科学自形成以来的目标——我们相信大脑是一组机制,可以产生我们每个人都可以关联的惊人的精神状态和行为。 物体识别只是这种精神现象学的一个核心例子,但却是我们许多人都可以关联到的一个例子。 因此,如果我们对这种行为及其潜在的神经机制达成端到端理解,那将是一个基础性的成功。 如果你想的话,它将是构建认知理解的基础中的一块大砖。

加里·斯蒂克斯 祝你好运。

迪卡洛 谢谢。

图片来源:麻省理工学院

 

加里·斯蒂克斯,《大众科学》心理与脑部主题高级编辑,编辑并报道推动脑科学成为生物科学前沿的新兴进展。 斯蒂克斯编辑或撰写了封面故事、专题文章和新闻,主题广泛,从一个人沉浸在思考中时大脑中发生的事情,到减轻抑郁症等情绪障碍的脑植入技术的影响。 在接管神经科学领域之前,斯蒂克斯作为《大众科学》的特别项目编辑,负责该杂志的年度单主题特刊,构思和制作了关于阿尔伯特·爱因斯坦、查尔斯·达尔文、气候变化和纳米技术的特刊。 他监督的一个关于时间在其所有表现形式的特刊获得了国家杂志奖。 斯蒂克斯与他的妻子米里亚姆·拉科布合著了一本技术入门书,名为《谁在乎千兆字节?技术困惑者的生存指南》。

更多作者:加里·斯蒂克斯
© . All rights reserved.