阴影与错觉

我们从阴影中感知形状和深度的方式揭示了一些支配我们如何看待世界的基本规则

Kai & Sunny

我们对世界的感知似乎毫不费力,以至于我们认为这是理所当然的。但想想看,即使你观看最简单的视觉场景,也涉及哪些过程。你的眼球中呈现出两个微小的、倒立的图像,但你所看到的却是一个统一的三维世界。正如已故神经心理学家理查德·格雷戈里曾经说过的,这种现象简直是“一个奇迹”。

实际上,这个“奇迹般”的过程涉及我们的大脑利用许多不同的线索。这些线索可能包括遮挡(如果A覆盖了B的某一部分,则A必须在前面)、运动视差(其中离我们较近的物体看起来比离我们较远的物体移动得更快)以及从阴影中辨别出的形状——本文的主要主题。阴影远非艺术家用来传达深度印象的简单手段,而是关于外部世界三维布局的强大信息来源。这些信息是通过使用一组我们在实验室中研究的简单规则提取的。

作为感知科学家,我们研究人们对世界做出的无意识假设,以及大脑如何利用这些想法来预测它将在世界中遇到的事物。为了做到这一点,我们与许多视觉科学家同事并肩工作,包括德国蒂宾根马克斯·普朗克生物控制论研究所的海因里希·H·比尔特霍夫、明尼苏达大学的丹尼尔·J·柯斯顿、俄亥俄州立大学的詹姆斯·托德和哈佛大学的帕特里克·卡瓦纳夫。我们共同致力于揭示在从阴影解释形状时能够解决歧义的感知规则,并探索所涉及的认知加工阶段。这些研究可以深入了解大脑在感知世界时使用的“规则”,其中许多规则反映了我们的进化历史。


关于支持科学新闻业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和思想的具有影响力的故事的未来。


在科学领域中,很少有哪个领域像感知科学这样,你只需在笔记本电脑上涂鸦几个小时,就能在一个拥有 150 多年历史的领域中做出令人惊讶的新观察。在大多数科学学科中,例如物理学或化学,目标是描述“客观”的定律,因为这些定律有意排除观察者的主观性。感知研究的独特之处在于,客体就是主体,这赋予了这项事业一种奇特的递归性质。因此,以下演示本身就是一个独特的实验,读者可以参与其中。

应该注意的是,我们的非正式观察需要进行仔细的测量才能跟进,并且还有许多问题有待解答。但我们希望说服读者,视觉错觉不仅仅是有趣的奇观。它们允许我们测量视觉系统的“智商”。它的处理策略通常非常复杂,但同样经常使用启发式方法和捷径。


阴影的基本规则

考虑一个简单的圆形,其渐变表明一侧被照亮,另一侧在阴影中 (1)。这样的插图通常被视为从左侧照亮的球体或球,尽管稍加努力,您也可以将其视为从右侧照亮的凹陷。这个演示揭示了形状阴影的第一个规则:在其他条件相同的情况下,凸面是更优选的。我们可能有这种偏好,因为我们在自然界中遇到的物体通常是凸面的。在没有固体物体的金星上进化的生物不会表现出这种偏好。

现在检查右侧的插图 (2),您会注意到一些奇怪的事情:当顶行被视为球体时,有强烈的趋势将底行视为凹陷,反之亦然。这个观察结果证明了单光源规则,即在解释阴影图像时,大脑假设整个场景都被单个光源照亮。您永远不会看到顶部和底部行既是凸面的又是从相反方向照明的。考虑到我们的星球只有一个太阳,这种特殊的偏见是有道理的。

接下来看 3a。请注意,顶部明亮的圆盘总是看起来像球体,而底部明亮的圆盘看起来像凹陷。这证明了第三个原则:大脑假设,除了只有一个光源外,光源必须从上方照射(同样是因为太阳从上方而不是下方照射)。苏格兰物理学家大卫·布鲁斯特爵士在 100 多年前观看从不同方向照明的浮雕时就注意到了这种顶置照明偏差。我们的多个阴影圆盘大大放大了效果,并将错觉剥离到其最基本要素。

感知不涉及忠实地将视网膜图像传输到大脑的视觉区域。这个过程更为复杂。图像中的不同属性(称为基本特征)在视觉处理的早期被神经元提取,然后在激活一系列最终达到您的最终感知行为的事件。此类特征的示例包括边缘(尤其是其方向)、运动和颜色,所有这些特征都在早期提取——很可能在大脑皮层的第一个视觉处理区域 17 区。另一方面,面部表情等更复杂的特征在过程的后期才被计算出来。

基本特征的一个特点是,即使它们混合在一起,它们也会清晰地分成不同的组。阴影也遵循这种模式。例如,大多数观看 3a 的人可以毫不费力地将球体分组,并将它们与凹陷分开。但对于 3b 来说,情况并非如此。这种比较表明,阴影——但不仅仅是光强度(称为亮度)在圆盘上的变化——可能是早期在处理流中提取的基本特征。事实上,1997 年,西安大略大学的一个研究团队证实了我们的推测,即阴影是在视觉处理的早期提取的,他们使用功能性磁共振成像测量了六位观察者的大脑活动。

但是,大脑如何将不同的深度线索组合在一起,以构建世界的整体三维表示?正如所讨论的,有许多不同的深度信息来源,因此有理由认为大脑最初独立处理这些特征中的每一个。是否有可能来自不同深度线索的信号会汇聚到大脑更远处的总深度图上?

答案可以在 4 中看到。即使是粗略的检查,也很明显,在 4b 中,分离是强大的,但在 4a 中远没有那么生动——换句话说,在 4b 中更容易感知不同的圆盘平面。在 4a 中,细水平线覆盖了球体并在凹陷后面延伸,这感觉不对,因为我们期望凹陷的空腔凸面球体的后面。这些插图揭示的是,我们的大脑在组合线索以构建三维现实时会寻找一致性——否则我们就不会检测到这种不和谐。

下一个问题是,视觉系统如何“知道”光线来自哪里?为了解决这个难题,我们创建了垂直的“蠕虫”,它们在这个插图中总是显得饱满,而绝不是凹陷的 (5a)。然而,简单的阴影圆盘更具歧义性(正如我们已经确定的,它们会根据我们对照明的假设而变成凸面或凹面)。当我们将这些圆盘分散在最右侧插图 (5b) 中的蠕虫中时,它们倾向于被视为凸面,以符合蠕虫暗示的来自左侧的光源。(相反的情况发生在演示的左侧部分。)因此,大脑正在使用明确的对象(我们的蠕虫)来破译光线来自何处,然后解释图像中更模糊的细节。


形状和阴影

我们的下一个展示 (6a6b) 是对单光源约束的又一次演示。但这一次我们使用阴影而不是阴影。在 6a 中,最初被视为随机黑色碎片的东西很快就凝结成三维字母表。另一方面,在 6b 中,相同的字母更难被感知为三维,因为它们是随机地从左下方或右上方照明的。尽管可以认知地推断出单个字母,但事实确实如此。如果以整体方式查看字母簇,则差异尤其明显。如果将纸张的任何边缘倾斜超过 60 度,效果也会放大。

在前面的插图中,三维字母具有所谓的附加阴影,其中阴影出现在物体上。我们现在转向图形设计师和艺术家凭直觉使用的东西:投射阴影,这些阴影不附加到其来源 (7a7b)。我们的下一个问题是,我们的大脑用来使用阴影确定深度的系统有多智能?

首先请注意,带有半影的阴影(7a 中边缘较柔和的阴影)比带有锐利边缘的阴影(例如 7b)更逼真。德国生理学家埃瓦尔德·赫林在 19 世纪就提出了这个观察结果。在 7 中,您可以看到,即使在 7a7b 中,阴影区域与正方形的距离相同,但带有模糊边缘阴影的正方形看起来比带有锐利边缘阴影的正方形更靠近观察者。

下一个插图显示了正方形和阴影之间的距离很重要(比较 8a8b)。阴影不仅可以表示深度的存在,还可以表示深度的幅度。然而,如果阴影完全与物体分离 (8c),情况就不再如此。即使这在现实世界中会发生,但它发生的频率也不足以作为经验法则纳入视觉处理中。


当系统失效时

我们的感知真正有多复杂是有限制的。我们观察到,阴影的形状不会抑制我们将物体与其阴影联系起来的能力 (9)。该系统很智能,但显然还不够智能。更深入的研究可能会揭示阴影及其来源之间形状不匹配的容忍度的限制。

我们感知局限性的另一个例子来自考虑某些规则如何推翻其他规则。例如,除了具有单光源和上方光线的约束外,还有一个较弱的假设,即即使从下方照明,单个孤立的阴影圆盘也最有可能凸面(而不是从上方照明的凹陷)。当使用多个圆盘时,这种效果尤其明显,大多数幼稚的受试者——作为默认设置——将它们视为一堆球体 (10a)。

然而,如果在它们之间插入一个从上方照明的单个球体 (10b),则由于单个球体提供的新信息,其他圆盘会立即转变为凹陷。这种变化是一个引人注目的例子,说明单个但强烈的线索如何否决多个模糊输入的效果。

注意力在光源解释中的重要作用可以在下一个插图中看到。如果您注视 11 显示器中间的“X”,并将注意力集中在右侧的簇上,您会看到它是由球体(从下方照明)组成的。但如果您让您的注意力扩展到包括左侧的单个球体,则右侧的圆盘会立即开始看起来像凹陷。我们可以得出结论,光源规则不适用于整个视野,而仅适用于注意力窗口所包含的部分。

通过使用其他线索传达深度,我们可以发现测试我们感知智能的新方法。尽管视觉图像的不同方面(例如颜色和阴影)最初是由视觉处理早期的单独神经通道提取的,但它们最终被组合在一起,在视觉场景中形成连贯的物体或事件。我们已经开始进行实验,以探索不同信息来源如何相互作用。

在一项未发表的研究中,我们通过使用 12a 中显示的两个帧创建动画来研究阴影和运动之间的相互作用。在一个电影序列的第 1 帧中,一个球体和一个凹陷并排同时呈现。接下来,在第 2 帧中,球体和凹陷出现在相反的位置。在我们的演示中,这两个帧不断循环。理论上,人们至少可以通过三种方式看到显示器

1. 两个平面、阴影圆盘反转亮度极性(方向)。

2. 左侧的静止球体变成凹陷,而右侧的凹陷变成球体。

3. 球体和凹陷交换位置。

超过三分之二的 15 名参与者实际看到的却完全不同且出乎意料:一个球在左右跳跃——填充和清空背景中的两个静止凹陷!在不使用阴影渐变的控制设置中(12a,最右侧面板),人们没有看到任何此类运动。这个实验表明,视觉系统即使在早期处理中,也部署了关于运动物体的惊人复杂的知识——即在现实世界中,凹陷不会移动,但球或球体会移动。

值得注意的是,如果仅为一个圆盘而不是另一个圆盘反转照明 (12b),则显示器的整个感知都会发生变化。这一次,左侧的圆盘被看到向内和向外脉动,在球体和凹陷之间变形。为了遵守单光源规则,大脑愿意接受变形的球体。

另一方面,如果没有顶置照明,视觉系统会恢复到单光源规则,如 13 所示。这里一半的圆盘是左右阴影,一半是从右向左阴影。

现在让某人相对于重力垂直握住页面(就像大多数人自然会做的那样来阅读页面上的文字),同时您将头侧向倾斜 90 度,使其与地面平行。(如果您侧躺,您可能会觉得更容易。)您会发现一半的圆盘(左侧照明的圆盘)突然变成壮观的球体,其余的变成凹陷。因此,“上方光线”指的是相对于头部而不是世界的“上方”!

尽管作为有意识的观察者,您知道太阳仍然在头顶,但您的视觉系统(处于自动驾驶状态)却不知道。它做了一个愚蠢的假设,即太阳仍然在上方——就好像它粘在您的头上一样——即使在您的头部倾斜时也是如此,这可能是因为我们的祖先并没有经常侧着头走路,以至于需要一种机制来使用前庭反馈来纠正这种倾斜。通过使用快速而肮脏的捷径,完全避免了这样做的计算负担。您付出的代价是容易受到错误解释的影响——当他们的头意外倾斜时,您的祖先可能看到了凹面橙子。但只要人们能够继续存活足够长的时间来生育后代,这种代价在进化方面就不是问题。

那么大脑是如何通过使用这种捷径来逃避的呢?进化的目标是充分性——而不是最优性——在人工智能、机器人技术和计算机视觉领域工作的科学家应该效法自然的脚步。正如我们的同事弗朗西斯·克里克所说,“上帝是一位黑客。”

每当我们的大脑失误并且我们错误地感知到某些东西时,我们都会体验到一种错觉。这些演示也具有审美成分,不仅因为它们在视觉上具有吸引力,而且还因为研究人员的科学推论直接基于观察。(因此,我们的观察结果与数据的距离并不远,这在科学的其他领域中经常出现。)与自然如此密切地合作是一种美。

最后,这些错觉对深度感知以外的视觉其他方面也有影响。例如,我们的研究深入了解了我们如何感知明度和亮度。考虑一下左侧阴影圆盘的三重奏与 14 中三个顶部照明的球体相比。此演示深入了解了亮度梯度陡度的现象——即,从圆盘一侧到另一侧的感知亮度对比度。尽管这些形状在物理上是相同的,但您可能会在左右阴影集中看到更大的对比度。我们感知到差异是因为——考虑到顶置照明规则——顶部照明的球体看起来更凸出,并且视觉系统将大部分光强度归因于表面曲率。在左右阴影圆盘的情况下,大脑将亮度差异归因于表面本身,这称为反射率。

使用这些演示,人们可以扮演夏洛克·福尔摩斯来解开感知的奥秘。我们邀请读者创建自己的图像,然后通过 vramacha@ucsd.educchunharas@ucsd.edu 写信给我们,讲述他们的发现。

© . All rights reserved.