立体视觉:深度的错觉

双眼视觉赋予我们深度感知——并使我们能够玩一些把戏

所有灵长类动物, 包括人类,眼睛都朝向前方。通过这种双眼视觉,两只眼睛看到的景象几乎相同。相比之下,许多其他动物群体,特别是草食动物,如有蹄类动物(包括牛、羊和鹿等有蹄动物)和兔形目动物(例如兔子),眼睛朝向两侧。这种视角为每只眼睛提供了很大程度上独立的视野,并极大地扩大了整体视野。为什么灵长类动物要牺牲全景视觉?它们获得了什么好处?

我们知道双眼视觉在脊椎动物中独立进化了几次。例如,在鸟类中,猫头鹰和鹰等掠食性物种的眼睛朝向前方。一种理论认为,这种特征赋予了统计学上的优势——两只眼睛比一只眼睛更好——在弱光条件下检测和区分物体,例如猎物。但无论其出现的最初原因是什么,这种进化上的创新都带来了一个巨大的优势:立体(字面意思是“立体的”)视觉。

视角转换
它是如何工作的?即使你的两只眼睛都朝向前方,它们在水平方向上是分开的,因此它们从两个略有不同的有利位置观察世界。由此可见,每只眼睛都会接收到周围三维场景的略有不同的图像;差异(称为视网膜视差)与物体与你的相对距离成正比。试试这个快速实验来理解我们的意思:竖起两根手指,一根在前,一根在后。现在,在注视较近的手指时,交替睁开和闭上每只眼睛。你会注意到,较远的手指离你越远(不要移动较近的手指),当你睁开和闭上每只眼睛时,它的位置的横向偏移就越大。在视网膜上,这种视线偏移的差异表现为左右眼图像之间的视差。


支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的有影响力的故事的未来。


一个简化的例子清楚地显示了这种效果。当你看着金字塔时,右眼比左眼看到更多的右侧,反之亦然;这是几何光学的一个简单结果。请注意,两只眼睛中的图像也相应地不同;内部正方形向右或向左移动。这种视网膜视差与金字塔的高度成正比。大脑测量这种差异并将其体验为立体深度。

尽管这种解释在今天看来似乎显而易见,但直到 19 世纪才得到阐明。列奥纳多·达·芬奇在几百年前试图解释它,并正确地观察到,由于眼睛通常会接收到 3D 场景的不同视图,因此即使在原则上,也不可能在 2D 画布上充分传达 3D 感。列奥纳多对我们如何看到一个由固体物体组成的单一世界感到困惑,因为眼睛视图不同(现在被称为列奥纳多的悖论),但他未能理解视网膜视差不是问题,而是立体视觉的基础这一关键点。

这一事实最终在 1838 年由英国物理学家查尔斯·惠斯通澄清,他发表了一系列关于双眼视觉的优雅实验。认识到左右眼视角的差异,他首先绘制了每只眼睛看到的简单物体的线条图。然后,他使用自己发明的设备,称为镜像立体镜,将这些线条图一起呈现给观看者:左眼视图仅呈现给左眼;右眼视图仅呈现给右眼。想象一下他的惊讶和喜悦!——当他看到物体的骨骼轮廓跃入 3D 立体效果时,看起来他几乎可以伸手抓住它。这一定与每个孩子在玩立体观察器(如熟悉的 View-Master)时体验到的那种惊奇感相同。这似乎很神奇。

但是,大脑究竟是如何和谐地将两只眼睛略有不同的图片融合到一张融合的图片中的?它又是如何测量和提取差异以实现立体视觉的?一方面,它需要统一图片;另一方面,它需要保留和测量它们的差异。

考虑一下当你用双眼注视图像时会发生什么,例如本页上的字母 X。字母的图像投射到每只视网膜的中央部分(中央凹),大脑将它们融合为一个。你看到一个 X,而不是两个。英国生理学家查尔斯·谢林顿在 20 世纪初提出,这种融合是一种神秘的心理过程,发生在头脑中,不需要信息实际汇聚到单个大脑区域。他敦促我们不要将心理融合与生理融合混淆。

我们现在知道他是错的:双眼融合是一个生理过程。X,或你注视的任何点,都会落在功能上和几何上被称为对应视网膜点的点上。事实上,来自整个平面(或严格来说,来自略微弯曲的表面)的任何点,以注视点为中心,都会刺激对应的视网膜点,并被视为单个物体(本页上的任何字母,而不仅仅是你注视的字母,都显示为单个)。正如哈佛大学的神经科学家大卫·休伯尔和托尔斯滕·维厄塞尔在 20 世纪 60 年代进行的一系列开创性实验中发现的那样,视觉皮层中的单个细胞,即所谓的双眼细胞,接收来自双眼的输入,特别是来自对应视网膜位置的输入,从而为知觉融合提供了机制。

然而,如果双眼神经元仅在来自双眼的相同输入到达时才被激发,那么你将很难感知真实的 3D 物体。约翰·“杰克”·佩蒂格鲁,当时是澳大利亚堪培拉的一名年轻医学生,在 20 世纪 60 年代中期注意到了这一事实,他推断立体视觉的神经机制必须包含另一组双眼神经元,这些神经元通过处理非对应的视网膜点来发出视网膜视差信号。

佩蒂格鲁(以及他的同事霍勒斯·B·巴洛、科林·布莱克莫尔和彼得·毕晓普)发现休伯尔和维厄塞尔的描述只是部分正确。当然,来自视网膜的对应点发送的信号会汇聚到视觉皮层中的单个神经元。就好像大脑中存在每只眼睛图像的地图,并且这些地图是(在解剖学上而言)对齐的;这种安排总体上是有意义的。但是,许多非对应的点也会汇聚并激活双眼细胞。正是这些神经元发出立体深度信号,因为它们实际上是在测量左右眼图像之间的水平散射。因此,即使在这个早期阶段,你在皮层上拥有的也不是世界的平面 2D 地图,而是 3D 地图。自惠斯通的洞察力以来,这可能是关于双眼视觉的最重要的发现。

当然,自从惠斯通时代以来,我们已经取得了很大的进步。我们可以使用相机来模仿两只眼睛的视图,而不是图纸。观看任何 3D 场景,并从左眼的有利位置拍摄一张照片。然后将相机移至右眼的位置,再拍摄第二张照片。打印这两张照片,放置一个垂直隔板,使每只眼睛只能看到自己的图像,瞧,图像就变成了 3D 场景。(参见示例 a。)这种立体照片在维多利亚时代的客厅中非常流行(如果它们是色情的,则会被小心地藏起来;如果它们是旅行系列,则会在家庭聚会上自豪地传阅)。

观看它们的最佳方式是通过立体镜,它结合了镜头和棱镜或反射镜,以实现更自然的调节和会聚。但是你可以尝试刚刚讨论的简陋隔板方法。通过一些练习,你可以使眼睛对齐以融合图像并看到立体深度。这非常值得付出努力。

摆锤游戏
你可以构建和体验的另一种立体错觉是普尔弗里希效应,讽刺的是,它是由著名的独眼科学家卡尔·普尔弗里希在 1922 年描述的(当然是在其他人身上做实验)。将重物挂在 18 英寸长的绳索末端,并像摆锤一样使其运动,在单个平面内水平来回移动(当它接近中心时速度逐渐加快,并在到达另一端的顶部时再次减速)。现在,仅在一只眼睛前放置一个滤镜(太阳镜即可)。令人惊讶的是,你会看到摆锤向你来回做椭圆形的 3D 偏移!使用左眼滤镜,从上方看运动将是顺时针方向;使用右眼滤镜则为逆时针方向。你的眼镜颜色越深,你看到的椭圆深度就越大。移除滤镜,它又回到普通摆锤的 2D 摆动。

这种效应的发生是因为滤镜降低了一只视网膜上摆锤的亮度,从而导致传输到视觉皮层中的双眼细胞的时间略有延迟。这种延迟意味着大脑“假设”摆锤的昏暗图像在空间上滞后——就好像非对应的点受到刺激一样——从而欺骗大脑认为摆锤正在 3D 运动。摆锤的速度越大(例如,在飞行过程中),体验到的三维性就越大,因此其 3D 路径呈椭圆形。

从列奥纳多、惠斯通和维多利亚时代的客厅玩具到现代生理学和心理物理学,这是一段漫长的旅程,但我们才刚刚开始了解双眼视觉的微妙之处。在下一期中,我们将进一步探讨这个主题。

注意:本文最初印刷时的标题为“立体视觉”。

(延伸阅读)

  • 双眼深度辨别的神经机制。H. B. Barlow、C. Blakemore 和 J. D. Pettigrew 发表于 Journal of Physiology,第 193 卷,第 327–342 页;1967 年 11 月 1 日。

  • 轮廓在立体视觉中的作用。V. S. Ramachandran、V. Madhusudhan Rao 和 T. R. Vidyasagar 发表于 Nature,第 242 卷,第 412–414 页;1973 年 4 月 6 日。

  • Seeing in Depth. Ian P. Howard 和 Brian J. Rogers。牛津大学出版社,2008 年。

维拉亚努尔·S·拉马钱德兰是加州大学圣地亚哥分校大脑与认知中心教授兼主任。拉马钱德兰的荣誉包括获得伦敦英国皇家学会的亨利·戴尔奖、为 BBC 讲授 2003 年里斯讲座以及参加 2012 年在格拉斯哥举行的吉福德讲座。

更多作者:维拉亚努尔·S·拉马钱德兰
SA Mind 第 20 卷第 4 期本文最初以“错觉:立体视觉”为标题发表于SA Mind 第 20 卷第 4 期(),第 20 页
doi:10.1038/scientificamericanmind0709-20
© . All rights reserved.