设计像眼睛一样工作的相机

为了改进摄影技术,工程师们正在设计更像眼睛的相机

在澳大利亚北部亚热带雨林的一片空地上,你可以观看光线穿过沙沙作响的树冠时舞动。下面,灌木的叶子在树干上形成了错综复杂的阴影图案。一只小沙袋鼠在空地上吃草。你举起智能手机,对准这只宁静的有袋动物。就在你点击按钮拍照时,小沙袋鼠注意到了你,跳开了。在你屏幕上的图像中,快照的一半太暗而无法辨认细节,而树梢之间的天空看起来像被漂白了一样白。跳跃的小沙袋鼠是照片中心附近一个模糊的小点。放大动物后,会看到几乎是立体主义风格的像素场,它的轮廓明显地分解成相机传感器最小的方格。

对于我们这些拍照的人来说,无论是轻触屏幕还是举起专业级设备,上述经历——如果不是小沙袋鼠的话——都会很熟悉。智能手机的普及几乎使我们所有人都变成了业余摄影爱好者。根据皮尤研究中心的一项调查,超过一半的美国互联网用户在网上发布原创照片。流行的分享服务Instagram报告称,每天约有5500万张照片被发布到其网络上——也就是每分钟38000张。然而,数百万张图像中没有一张能够接近捕捉到我们用眼睛体验到的生动、丰富的世界。

当你使用眼睛时,曝光、像素化或运动模糊等问题永远不会发生。那么,将你的智能手机相机变成你眼睛的等效物的应用程序在哪里呢?工程师们现在正在研究这个问题。通过设计模仿进化在人脑中解决图像创建问题的方式的相机,他们希望提高我们个人照片的质量。但这不仅仅是这样。有了更好的相机,我们将拥有能够独立、智能地导航世界的机器人,以及能够像人一样识别出一个人是否遇到麻烦并迅速派遣帮助的安全摄像头。当我们越来越多地通过计算机的眼睛来看事物时,我们的计算机也将学会像人类一样看事物。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。


为了理解这项技术创新是如何产生的,我们必须首先理解眼睛是如何完成其无与伦比的工作的——以及相机在哪里显得不足。

曝光的本质

相机的一个明显的弱点是它们无法在单次拍摄中处理高光和低光条件。在极少数情况下,我们的眼睛也会遇到这个问题。例如,当从黑暗的地下室走到阳光下时,我们会说“被光线刺瞎了眼睛”。这种短暂的时刻,我们的眼睛很快就能从中恢复过来,是我们眼睛可以说遭受过度曝光的少数情况之一。历史上,英语甚至没有“过度曝光”这个词,因为我们的视力在避免这个问题方面一直无与伦比。正是相机的发明才使不适当照明的图像的概念出现。

原因是动态范围。它是我们的眼睛或相机可以记录的最低和最高光强度之间的差异。光以微小的包裹形式出现,称为光子,它们以——你猜对了——光速在宇宙中穿梭。但它们以不同的能量水平这样做。高能量光子被感知为蓝色,而能量低得多的光子看起来是红色。当光子与物质碰撞时,它们可能会被重新定向或吸收。例如,水分子选择性地吸收低能量光子,这就是水看起来是蓝色的原因。坚实的深色墙壁几乎吸收所有照射到它的光子,并将它们的能量转化为微小的热量,这就解释了为什么墙壁有时摸起来会感到温暖。更奇异的材料吸收光子,并且不是发出热量,而是将能量放大成对相机和大脑有用的信号。

在数码相机中,吸收光子的物体称为光电二极管。一个光电二极管相当于一个像素,因此相机拥有的光电二极管越多,照片的质量就越高。这种设备通常由硅制成,它只是一个光探测器。当光子击中它时,粒子会将硅中的一个电子击打到更高的能量水平。产生的电荷激发电子,导致电流流动。半导体芯片放大来自每个光电二极管的电信号。

佳能 5D II——一款顶级单反相机——可以区分的最亮光线比它可以感应到的最弱光线强 2000 倍。如果场景的亮度超过此范围,则会出现过度曝光和曝光不足的图像区域,并随之而来的是摄影上的耻辱。但是,如果你用眼睛看同样的光子,它会击中你的视网膜。更准确地说,它会进入你视网膜中的一个细胞,称为感光细胞,并激发一个电子。所讨论的粒子位于视网膜分子(一种维生素 A)内部,该分子是感光细胞中蛋白质的一部分。

受到激发电子的刺激,视网膜分子开始扭曲,这反过来又触发包围它的蛋白质改变其构型。这种形状的改变启动了一系列下游效应,涉及其他蛋白质变形、细胞膜中的通道猛然关闭以及氨基酸谷氨酸流量减慢。所有这些黏糊糊的生物机械都极大地放大了光子的无限小能量,产生了足够强大的信号来驱动神经元。

事实上,视网膜的放大能力非常强大,以至于在完全黑暗的房间里,光源只需发射大约五个光子,你就能感知到它。为了达到这种灵敏度水平,我们的眼睛进化出一种特殊的超灵敏感光细胞,专门用于黑暗、类似夜晚的条件。这些所谓的视杆细胞,虽然仅在黑暗中使用,但数量是我们在白天使用的锥形感光细胞的 20 倍。夜间视觉显然在我们的进化史上非常重要,因为包括所有这些视杆细胞并没有为我们的锥形白天感受器留下太多空间。

这两种感光细胞共同使我们能够记录巨大的光照水平范围。然而,即使没有夜间感受器,我们的眼睛也能在令人难以置信的范围内工作。如果你在灯光明亮的办公室工作到很晚,你可能会望着窗外,看着夕阳西下,树木变成黑色的剪影而感到惆怅。然而,你仍然可以同时看到外面的物体和你灯光明亮的办公室里的东西。你的眼睛敏感的光照水平范围如此之广,以至于它可以区分两个物体,其中一个物体比另一个物体亮一百万倍。

优势在于每个感光细胞都有自己的曝光设置,该设置会不断变化以响应接收到的光照水平。为了模仿眼睛的范围,一些相机现在可以组合快速连续拍摄的多次曝光。过度曝光的照片提供了场景黑暗部分的适当照明视图,而曝光不足的照片则捕捉了明亮的部分,例如天空。这些太亮和太暗的照片融合在一起,产生了一个范围大于任何单张照片可能范围的图像。当拍摄快速移动的物体时,这种技巧会失败,因为它们在不同的曝光之间会改变位置,但它对于风景摄影效果很好。即使您的相机没有内置高动态范围功能,您也可以在笔记本电脑上事后融合多张图像,以获得没有过度曝光和曝光不足区域的合成图像。

捕捉瞬间

让我们回到跳跃的小沙袋鼠,以及它为什么变得模糊。问题之一是相机的快门速度只有那么快(比如,五十分之一秒),因此照片会捕捉到整个时间跨度内的光线,在此期间,小沙袋鼠的身体移动了几厘米。我们的视觉系统也不快,因此我们的感光细胞创建的图像也会模糊。然而,不知何故,我们并没有感觉到太多模糊。

光线到达视网膜后,几种专门类型的神经元(连接相邻的感光细胞)会在将光信号发送到大脑之前对其进行修改。其中一些神经元对特定方向的运动做出反应,另一些神经元对黑暗包围的明亮信号做出反应,等等。它们共同使眼睛能够调整其灵敏度。

最终,你的视觉系统对变化最感兴趣。眼睛不断移动,改变照射到你的感光细胞上的光量,并保持你对世界的图像。如果你的眼睛保持静止,场景中缺乏变化会导致视网膜停止发出信号,物体将开始消失。瑞士医生伊格纳茨·特罗克斯勒在 1804 年首次注意到这种现象。对变化的偏好有助于强调新数据而不是旧数据。这是一种克服光学设备缺陷的巧妙技巧。例如,这种变化偏好是我们永远看不到眼睛中的血管的原因,血管位于外部世界和我们的感光细胞之间。

虽然这种技巧尚未融入消费级相机,但苏黎世神经信息学研究所的托比·德尔布吕克开发的一种实验性相机展示了一种极端形式的变化偏好。这款相机的芯片不仅仅像标准相机那样简单地记录照射到每个像素上的光量,而是依赖于光强度的变化。这款相机创建的图像本质上是在拍摄照片时发生的运动和变化的记录。强度增加的像素显示为白色,而强度减小的像素显示为黑色像素。如果像素从始至终没有变化,则图像仅显示平淡的灰色像素。这种对变化的强调忽略了静止、不变的物体,以帮助隔离移动的物体。

西悉尼大学的研究生格雷格·科恩(斯蒂费尔的同事)正在使用这款受视网膜启发的相机芯片来创建一个可以打乒乓球的机器人,乒乓球是一项完全关于变化和运动的游戏。在乒乓球中,对手、他的球拍,尤其是球都以惊人的速度移动。乒乓球场景中的并非所有信息都有助于将球击回球桌对面,例如对手身后的窗户或地板上的图案。受视网膜启发的相机忽略静态物体的功能有助于完成这项任务,使机器人能够专注于检测和响应运动。打乒乓球需要如此出色的手眼协调能力,以至于在这项任务中取得成功可能会为各种应用带来有用的解决方案,例如照顾老人或搜救行动。

拯救面孔

虽然视网膜负责视觉的第一步,但在大脑中会发生更多的处理。例如,当我们的大脑可以轻松地将主要对象与其背景分离时,我们会快速欣赏照片。熟练的摄影师知道如何让大脑轻松完成这项任务,例如,通过将一个人的脸部对焦,同时限制景深,使背景模糊。面孔对我们来说是一类特殊的物体。在繁忙的视觉场景中,人类的目光会优先寻找它们。照片中如果面孔模糊,几乎总是被认为是毁坏的照片。

几个大脑区域有助于我们处理面孔的能力。当视觉信号离开视网膜时,它会传播到大脑的一个称为丘脑的部分。丘脑是通往皮层(构成大脑表面的紧密折叠的外层)的复杂中继站。许多皮层区域帮助我们处理我们所看到的东西。初级视觉皮层是大脑后部的一大块区域,大多数离开丘脑的信号最终都会到达那里。从那里,有关我们视觉世界的信息会传播到皮层的几个额外的视觉区域。在这些区域中,颞叶皮层(位于大脑侧面)的各个小区域对看到面孔的反应非常具体。

相机制造商已开始实施类似于我们大脑识别和优先处理面孔的能力。当今的许多相机,即使是简单的傻瓜相机,也能识别其视野中的面孔。这通常是通过一种称为 Viola-Jones 算法的先进统计方法完成的。简而言之,相机的芯片会过滤图像以查找基本特征,例如边缘和角。然后,它逐区域运行一系列测试以查找面部特征。例如,它会查看两个较暗的点(眼睛)之间是否出现一个亮点(鼻子)。只有当图像的一部分通过所有这些测试时,该算法才会判定它看到了面孔。现在,相机可以确保将该面容保持对焦。

最有可能的是,大脑处理面孔的方法与 Viola-Jones 算法大相径庭。因此,现代相机中的面部识别算法不是大脑识别面孔方式的软件实现,而是解决同一问题的不同解决方案。通过将图像处理方面的此类进步与有关人类视觉偏好的知识相结合,我们可以极大地改进我们制作的照片。

心中的百万像素

皮层中对面孔选择性的区域只是大脑用于视觉的区域的一小部分。它的其他部分对视觉场景的不同方面做出反应,例如颜色、运动和方向。这种喧嚣的活动最终在我们周围感知的视觉世界中达到高潮。

这些大脑区域的协调努力是你在现实生活中永远不会看到任何粗糙颗粒的原因,就像你在放大照片时看到的那样。增加相机中的百万像素 (MP) 数量并不能解决这个问题。斯蒂费尔自豪地拥有的第一台数码相机配备了 2MP 传感器,但如今即使是大多数智能手机也至少是这个数字的两倍。我们可以继续塞入更多像素——制造技术的进步很可能会进一步缩小硬件尺寸——但放大看似平滑的图像最终会将其变成一堆方块状颜色的情况仍然存在。

当两个相邻的光子击中同一个光电二极管时,就会出现这种限制,这意味着它们的能量将合并为一个像素。在那时,有关它们确切原始位置的信息将永远丢失。不幸的是,没有图像处理软件可以创建更有意义的像素。你可以放大数码照片的尺寸,但新创建的像素不会包含任何关于你按下快门时进入相机的光线的新信息。此外,缩放并不像你想象的那么大。16MP 相机的像素仅是 4MP 相机的两倍小。相比之下,人类视网膜仅包含约 600 万个功能正常的白天感光细胞(视锥细胞)——仅 6MP。

本质上,我们的大脑构建了一个它进化为视为现实的感知——而人类大脑不认为人类视网膜的颗粒感是外部现实的特征。我们感知到的东西是一种构建,一幅杰作,它涉及到我们各个传感器之间的大量填充。我们的感知中没有像素这样的东西——我们的大脑不会像生物超级相机那样逐片地复制光的图像。相反,大脑为特定目的合成连贯的印象——即让我们在世界中找到自己的路。眼睛的原理和相机的原理从根本上不同。除非在遥远的未来,我们开发出真正智能的机器并将其中一台放入相机机身中,否则这种差异将无法弥合。

尽管如此,工程师可用的可能性仍在不断增加,同时对眼睛和大脑的了解也在不断加深。将这些与一点创造性思维相结合,应该会在相机技术方面产生更多令人兴奋的进步。

延伸阅读

  • 视觉的第一步。 罗伯特·W·罗迪克。 Sinauer Associates,1998 年。

  • 好奇摄影师的科学:摄影科学导论。 小查尔斯·S·约翰逊。 A. K. Peters/CRC Press,2010 年。

  • 基本视觉:视觉感知导论。 修订版。 罗伯特·斯诺登、彼得·汤普森和汤姆·特罗斯基安科。 牛津大学出版社,2012 年。

来自我们的档案

克劳斯·M·斯蒂费尔是一位水下摄影师,也是西悉尼大学的研究员,他在那里研究脑细胞及其网络。他还是《性、毒品和水肺潜水》的作者,这是一本关于海洋生物学、水下摄影和潜水的科普书籍。

更多作者:克劳斯·M·斯蒂费尔

亚历克斯·O·霍尔科姆是悉尼大学心理学副教授,研究感知。

更多作者:亚历克斯·O·霍尔科姆
SA Mind Vol 25 Issue 3这篇文章最初以“眼睛、相机、行动!”为标题发表在SA Mind 第 25 卷第 3 期(),第 52 页
doi:10.1038/scientificamericanmind0514-52
© . All rights reserved.