双眼,双重视角:您的大脑与深度感知

深入了解深度感知的细微之处,这得益于我们双眼对世界的略微不同的视角

人类 享受立体视觉 (a)。正如我们在上一期文章中提到的,由于我们的眼睛水平分隔,我们在两只眼睛中看到的图像略有不同,差异与相对深度成正比 (b)。大脑中的视觉区域测量这些差异,我们将结果体验为立体感——我们所有人在小时候玩 View-Master 玩具时都享受过这种感觉。

从眼睛到大脑的视觉图像处理分阶段进行。边缘方向、运动方向、颜色等基本特征在称为 V1 和 V2 的区域中早期提取,然后到达视觉处理层次结构中的下一阶段,进行逐步更精细的分析。这种分阶段描述是一种漫画式的说法;许多通路从一个阶段“返回”到另一个阶段——允许大脑玩一种“二十个问题”的游戏,以便在连续迭代后得出解决方案。

回到立体的概念,我们可以问:两只眼睛图像的比较是在哪个阶段进行的?如果您正在观看具有数百个特征的场景,您如何知道一只眼睛中的哪个特征与另一只眼睛中的哪个特征匹配?您如何避免错误匹配?在实现正确的匹配之前,您无法测量差异。在立体视觉中,这个难题被称为对应问题。


支持科学新闻报道

如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


关于边界的问题
为了解决这个问题,19 世纪伟大的德国物理学家、眼科医生和生理学家赫尔曼·冯·亥姆霍兹问道:比较是在非常早期进行的,在物体边界被识别之前,还是大脑首先在每只眼睛中分别提取轮廓,然后再进行比较?他得出结论,在没有大量证据的情况下,每只眼睛中轮廓的形式感知发生在双眼比较之前。他说:“单眼形式感知先于立体视觉”,他认为,比较两只眼睛图像的任务非常复杂,并且发生在非常高的层次上。大脑通过首先识别形式,然后比较形式的延伸轮廓来解决对应问题。这种策略允许大脑避免(或最大限度地减少)错误匹配。

这个想法在近 100 年后受到了已故匈牙利科学家贝拉·朱尔斯(一位才华横溢、毫不谦虚的人)的挑战,他在贝尔实验室工作。他使用了一种不同的立体图 (c),使用计算机生成的随机点模式,而不是照片或线条图。在左眼和右眼图像中,都没有任何可识别的轮廓或形式——完全没有。虽然这些是使用计算机制作的(如 d 中示意的那样),但原理可以通过使用数码相机和随机点图像来理解。从大约五平方厘米大小的随机点模式开始。使用剪刀从另一个随机点模式(称之为 S,代表正方形)中剪出一个一平方厘米的补丁。将此正方形居中放置在第一个图案的顶部,并拍照以生成左眼图像 (L)。如果 S 正确定位,它会因为背景点的伪装而几乎不可见。现在,将 S 水平向右稍微移动(确保定位它,以便从小方块中看不到重叠点的边界)。再拍一张照片以制作右眼图像 R。

朱尔斯将他的随机点立体图中的一张图像呈现给每只眼睛,并惊讶地看到一个小正方形如此生动地漂浮出来,以至于他几乎想抓住它,即使在任何一只眼睛中都看不到正方形。最初的实验是用数字生成的像素而不是纸片进行的,并且偏移也是完全数字化的。因此,并非好像每个眼睛的图像中都 隐藏 着一个正方形;从数学上讲,它甚至不存在于任何一只眼睛中。它完全由差异——S 的水平偏移(由 d 中的 X 和 Y 列显示)定义。朱尔斯得出结论,冯·亥姆霍兹是错误的。由于正方形仅作为立体融合的结果而出现,因此立体匹配必须是位点到点(或像素到像素)的位移测量,并且正方形的轮廓完全来自这种比较。立体先于形式的检测(“形式”在本上下文中与延伸轮廓和边界互换使用)。

朱尔斯的演示启发了一位年轻的医学生杰克·佩蒂格鲁(当时在加州大学伯克利分校),去研究双眼神经细胞在双眼处理的早期阶段的生理学。在此之前,立体视觉的问题似乎难以解决,因为如果冯·亥姆霍兹是对的,研究人员就必须首先解决形式感知的生理学——关于这一点,没有人知道如何进行。然而,佩蒂格鲁发现他的预感是正确的——这些细胞正在提取水平偏移并发出立体的信号(正如我们在之前的专栏中讨论的那样)。

这是一个简单的故事,但当一位来自印度的学生(拉马钱德兰)发现,在某些情况下,形式感知先于立体视觉时,情况变得更加复杂,这表明大脑视觉中心的灵活性。他创建了一个立体图,其中每只眼睛都有一个纹理定义的正方形。然后,他移动了整个正方形,而不是移动定义纹理的点 (e)

他有两个随机点模式,每只眼睛一个。但这一次,每只眼睛都可以单独看到一个正方形——这与朱尔斯模式不同。它仍然由随机点组成,但由于纹理的差异,每只眼睛都可以单独看到一个正方形。构成左眼图像(包括 S)的点在两只眼睛中完全不同;与朱尔斯的图片不同,它们是不相关的。这个立体图与朱尔斯的相反——每只眼睛都可以看到一个正方形,但构成它的点(及其背景)在两只眼睛中是不相关的。

拉马钱德兰发现,当他通过立体镜观看此图像时,中心正方形漂浮出来。由于定义正方形的点在两只眼睛中是不相关的,他和他的同事得出结论,在这种情况下,形式感知发生在立体视觉之前。在测量跨眼睛的偏移之前,每只眼睛都分别识别出正方形。朱尔斯规则可以被违反。大脑经常使用多种技巧来实现相同的目标。在嘈杂的伪装环境中,同时使用两种策略是有意义的。

他发明的第二个显示器也说明了相同的观点。它利用了一种奇特的视觉效果,称为错觉轮廓 (f)。四个“吃豆人”由四个黑色圆盘制成,每个圆盘都切出了馅饼形的楔形。然而,你看到的不是彼此面对的吃豆人;你看到的是一个不透明的错觉白色正方形遮挡了背景中的四个黑色圆盘。大脑实际上在说:“一个邪恶的科学家精确对齐这些圆盘的可能性有多大?更可能是个不透明的正方形,所以我将看到它。” 你幻觉出边缘,称为图像分割。

现在,这些错觉边缘可以为立体视觉提供输入吗?从 f 中的左眼图片开始,并将错觉正方形向左移动以创建右眼图片。(这种移动需要从馅饼中咬下更大的块。)当您通过观察器观看图像时——瞧——错觉正方形漂浮出来了!同样,形式处理和图像分割发生在立体视觉之前。

情况变得更好了。让我们取这个立体图的模板,并将其粘贴到由点列组成的重复壁纸上 (g)。两只眼睛中的点是相同的;它们不传达任何视差信息。然而,令人惊讶的是,错觉正方形内部的点也随之漂浮出来——我们称之为立体捕捉的错觉;这些点被错觉正方形捕获并向前拖动,即使它们本身没有移动。

这个结果表明,朱尔斯的说法并非完全正确:立体视觉不仅仅涉及比较两只眼睛之间的像素。即使您考虑佩蒂格鲁的视差细胞,它们也必须提取微小的定向簇(而不是点)并“寻找”相同的簇进行匹配。但是拉马钱德兰的实验(以及来自纽约大学心理学家劳埃德·考夫曼的非常相似的结果)表明,该机制甚至比这更复杂;它可以根据隐含的遮挡分割图像,并“幻觉出”错觉轮廓,这些轮廓可以作为立体匹配的标记。一旦提取了此信息并测量了视差,大脑就会构建一个 3D 错觉表面。封闭的点被向前拖动这一事实意味着 3D 表面反馈以应用于这些点。

因此,我们可以得出结论,冯·亥姆霍兹、朱尔斯、佩蒂格鲁和拉马钱德兰都是正确的;立体的视觉处理比我们想象的要复杂得多。我们对这些相互作用背后的生理机制一无所知。信号视差的细胞位于 V1 中(如佩蒂格鲁所示),但从隐含遮挡中提取错觉轮廓的细胞位于 V2 区域,即下一个阶段,正如约翰·霍普金斯大学的鲁迪格·冯·德·海特所证明的那样。这些发现暗示,来自 V2 的信息必须反馈到 V1,以调节较小特征的处理。这个想法尚未经过检验。

注意:本文最初印刷时的标题为“双眼,双重视角”。

(延伸阅读)

  • 独眼巨人视觉的基础。贝拉·朱尔斯。芝加哥大学出版社,1971 年。(麻省理工学院出版社版,2006 年。)

  • 轮廓在立体视觉中的作用。V. S. 拉马钱德兰、V. 马杜苏丹·拉奥和 T. R. 维迪亚萨加尔,载于 自然,第 242 卷,第 412-414 页;1973 年 4 月 6 日。

  • 错觉轮廓对立体视觉和视运动的捕捉。V. S. 拉马钱德兰,载于 感知与心理物理学,第 39 卷,第 5 期,第 361-373 页;1986 年 5 月。

  • 深度视觉:第 1 卷:基本力学和第 2 卷:深度感知。伊恩·P·霍华德和布莱恩·J·罗杰斯。牛津大学出版社,2008 年。

 

维拉亚努尔·S·拉马钱德兰 是加州大学圣地亚哥分校大脑与认知中心教授兼主任。拉马钱德兰的荣誉包括获得伦敦英国皇家学会的亨利·戴尔奖、为 BBC 做的 2003 年赖斯讲座以及参与 2012 年在格拉斯哥举行的吉福德讲座。

更多作者:维拉亚努尔·S·拉马钱德兰
SA Mind 第 20 卷第 5 期本文最初以“错觉:双眼,双重视角”为标题发表于SA Mind 第 20 卷第 5 期(),第 22 页
doi:10.1038/scientificamericanmind0909-22
© . All rights reserved.