视频显微镜揭示“静止”物体中的运动

一种新型“运动显微镜”揭示了看似静止的物体和人体的微小变化

最早的显微镜出现在16世纪和17世纪,它们将看起来完全透明的玻璃片转变成了一个充满细菌、细胞、花粉和复杂晶体的宇宙。这些具有远见卓识的辅助工具是首批向人们展示血液中存在细胞的设备。从那时起,显微镜为科学家们打开了其他隐形世界,深入细胞内部,甚至达到原子尺度。

我们相信,一种新型显微镜即将揭示另一个引人入胜的新世界:一个肉眼难以捕捉的运动和颜色变化的世界。血液在面部脉动会使面部时而变红,时而变浅;风可以使建筑起重机产生微小的摇晃;婴儿的呼吸通常过于微弱而难以察觉。这些运动小得几乎难以想象,但它们的重要性却非常重大。它们可以揭示我们的健康状况或即将发生故障的关键机器的振动。我们与学生和合作者一起,开发出了一种我们称之为运动显微镜的工具,它将摄像机与专门的计算相结合。它们共同放大了在肉眼看来绝对静止的人和物体中的运动。

计算颜色
我们的运动显微镜是在偶然情况下被发现的。我们一直在进行一个视频项目,旨在测量肉眼无法看到的微小颜色变化。麻省理工学院媒体实验室的科学家 Ming-Zher Poh、Daniel McDuff 和 Rosalind W. Picard 在 2010 年展示了他们可以使用摄像机通过检测血液在心脏跳动节奏中流向和流出面部所引起的微小颜色变化来测量脉搏。(他们已将该技术转化为一款名为 Cardiio 的脉搏测量智能手机应用程序。)我们认为这些计算很棘手,并且比它们需要的更复杂,涉及到高级线性代数。我们开始寻找一种更简单的方法来执行该过程。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


主要的挑战是血液流动引起的任何单个视频像素中的颜色变化程度很低——在一个脉搏周期内仅变化 0.2%。不幸的是,相机传感器不会记录精确值,并且总是包含随机噪声,通常高于 0.2%。这种噪声大大掩盖了红色的变化。

在寻找更简单途径的过程中,我们与当时的在校学生郝宇武、麻省理工学院研究员 John Guttag 以及当时在 Quanta Research Cambridge 的 Eugene Shih 决定用附近所有像素的平均值来代替表示每个像素颜色的数字。这种方法显着降低了噪声,因为这些随机波动往往会在足够大的像素组内相互抵消。我们还过滤掉了发生在比成人静息脉搏典型范围更长或更短的时间段内的颜色变化。

我们的简单方法被证明成功地将像素变化转化为每分钟的节拍数。但是这些颜色变化对我们来说是不可见的,我们想看看它们是什么样子。通过使用这些计算来计算视频中每个像素在一段时间内的红色变化,然后将其放大 100 倍,我们能够清楚地看到一位成年男子的脸每次心跳时都会变得更红。

这项技术也适用于婴儿。在对新生儿进行的一项测试中,我们与当时在马萨诸塞州温彻斯特医院的医生 Donna Brezinski 和 Karen McAlmon 合作,使用普通数码相机拍摄了一段视频。放大后,我们发现视频显示的脉搏与连接在小手指上的传统脉搏仪显示的脉搏非常吻合。这一观察结果提出了无需接触即可测量脉搏的可能性,这对于脆弱的早产新生儿非常重要,因为触摸这些婴儿可能会造成伤害。对于成年人来说,在未来,这些可视化可能会帮助揭示血流中的异常情况,这些异常情况可能具有健康影响,例如身体左右两侧循环之间的不对称性。

并非如此静止的生活
然而,我们的视频给我们提出了一个难题。为了简化颜色处理,我们要求镜头前的成年人保持非常静止,并且他们在原始视频中头部看起来确实一动不动。但是,当我们观看放大颜色的结果时,我们注意到他们的头部在移动。我们的技术似乎不仅增强了颜色变化,还增强了微小的运动。

在早期与其他同事合作的工作中,我们制作了放大微小运动的视频。但这涉及到专门的软件,该软件计算每个像素在每个点的运动方向(矢量),并将它们移动到新的位置。事实证明,这很复杂并且容易出错。令我们惊讶的是,我们的新方法可以通过简单的计算并且无需计算任何棘手的运动矢量即可实现类似的效果。

为什么更大的颜色变化也会放大这些微小的运动?为了找出答案,我们必须回顾视频中的运动是如何导致局部颜色变化的。想象一下一个物体,比如一个球,它从右侧被照亮,使球的右侧明亮,左侧黑暗。如果球从左向右飞过视频屏幕,则屏幕上一个固定位置的像素会随着时间的推移而变得越来越暗,因为它描绘的是球上越来越靠左的点。变化取决于球的移动速度以及球的左右两侧之间亮度过渡的清晰度,即所谓的颜色梯度。从数学上讲,我们可以说像素颜色随时间的变化是物体速度乘以该颜色梯度的乘积。

当然,我们的算法并不知道速度或颜色梯度。尽管如此,因为它放大了任何特定点的颜色变化,随着球向右移动一英寸的一小部分,它也放大了球的这一小部分运动,以便您的眼睛可以看到。以类似的方式,代表婴儿胸部特定点的像素颜色会随着婴儿的呼吸而变化,使颜色变化更加明显也会使胸部的微小运动更加明显。

流体外观
我们早期使用矢量的工作与我们新的基于颜色随时间变化的方法之间的差异在于视角。这就像是在顺流而下与在急流中保持静止之间的区别,而视角的这种变化使我们的新计算方法更易于操作。这个想法来自观察流体并模拟其运动的科学家。有两种对比鲜明的方法可以做到这一点:拉格朗日方法和欧拉方法。拉格朗日方法跟踪给定部分的流体在空间中传播的过程,就像在船上观察者跟随河流的流动一样。相比之下,欧拉方法使用空间中的固定位置并研究流经它的流体,就像观察者站在桥上一样。

我们早期的工作遵循拉格朗日哲学,就像船上的观察者一样,其中像素在输入视频中被跟踪,然后根据从点到点的放大矢量移动——就像船移动一样。相比之下,我们的新方法仅考虑固定位置的颜色变化,类似于停留在桥上的观察者。这种局部视角仅适用于微小运动,但使其更加简单和稳健。计算机可以使用此技术快速处理视频,而我们早期的工作需要大量的计算机处理时间,并且经常包含错误。

2012 年,我们发表了一篇关于这种新方法的论文,名为欧拉视频放大。它展示了血流如何改变面部。它还包含各种其他示例,例如婴儿的呼吸运动,可以对其进行放大,以便新生儿的父母可以查看增强的视频信号以查看婴儿是否在移动。我们还拍摄了一个吉他的高速视频,其中所有琴弦都在振动,并围绕给定的音符选择了窄频带,例如对于以 82 Hz 振动的低 E 弦,选择了 72 至 92 赫兹。这放大了单个琴弦的运动,而其他琴弦看起来绝对静止。

我们创建了一个网站,人们可以在其中上传他们的视频并通过此运动放大过程运行它们。(请访问 https://videoscope.qrilab.com 查看视频显微镜。)人们以我们没有想到的方式使用它,这令人兴奋。有人发布了一段视频,显示了妊娠晚期胎儿的运动。另一个人放大了她的宠物豚鼠的呼吸运动。一位艺术专业的学生制作了一段视频,展示了她的朋友们试图保持静止时不易察觉的动作和表情。

然而,我们也了解到,我们的欧拉方法确实有局限性。如果给定的输入像素从一帧到下一帧变得更暗,计算机将过度放大这种变化,产生一个完全黑色的像素,有点像失控的放大效应。这种类型的问题可能会在运动区域周围引起暗淡或明亮的光晕。来自传感器噪声的输入颜色变化也是一个挑战,因为——即使我们通过平均许多局部像素来平滑它们——噪声仍然会被放大。

这一结果促使我们和我们的研究生 Neal Wadhwa 开发出一种新的算法,该算法保留了简单欧拉方法的优点,但在变化变得更加极端时提供了更好的视图。

我们意识到,我们原始方法局限性的根源在于一个错误的假设。它假设每个像素与其所有相邻像素(左侧、右侧、上方、下方的像素)之间的颜色差异是相同的,但不幸的是,情况并非总是如此。例如,边缘对应于比周围平滑区域更大的像素差异(更高的梯度)。因此,如果您尝试同时将所有像素放大相同的量,您会得到无法显示实际运动的失真。

我们没有按相同的量放大,而是决定将图像的每个片段(局部像素组)在数学上表示为正弦波。正弦波有上升和下降,陡峭的斜率显示快速变化,而顶部和底部显示缓慢变化。在视频图像中,边缘模仿快速变化的部分,而平滑区域看起来像缓慢变化的部分。我们可以将图像区域在一段时间内的变化表示为波的相位变化。从快速变化的相位移动到较慢变化的相位有助于我们表征视频的两帧之间发生了多少运动,并且它不会产生光晕等视频伪影。我们在 2013 年报告了这一进展。

微小运动,重大意义
在解决了这些缺陷之后,我们发现我们可以处理视频,以查看以前只能通过方程或计算机模拟预测的无限小运动。例如,PVC 管圆形框架周围的外壳是一个简单的物体。当受到锤子或类似物体的撞击时,外壳会以特定的模式弯曲和反弹,这些模式以不同的时间频率振荡。快速上下振动的模式紧密地聚集在一起,而移动较慢的模式则更大,它们迫使外壳变成不同的形状。这些模式出现在工程教科书中的方程式中,但看到管道中的实际变形很困难,因为变化太小了。

我们拍摄了管道被击中的高速视频。在未经处理的视频中,圆形形状的任何变化都几乎不可见。然后,麻省理工学院 Oral Buyukozturk 的研究生 Justin Chen 与壳牌国际勘探与生产公司的科学家合作开展了一个项目,他通过我们的运动显微镜运行了该视频,告诉计算机提取出三个最低频率的振荡模式。(这与我们用于可视化人体脉搏的原理相同,即仅寻找对应于每分钟心跳速率的像素变化。)放大这些频率显示管道横截面向内和向外弯曲,揭示了实际运动。

观看酒杯在声压下破碎(以高频振动)是另一个很好的例子,说明这种可视化有多么引人注目。我们都看过好莱坞电影,其中女高音唱出高音并震碎玻璃。但是我们谁也没有见过玻璃的实际变形,因为它通常振幅太小且速度太快,通常在 300 到 500 赫兹左右。我们想实时展示玻璃的弯曲和伸出。

为了做到这一点,我们使用了 Harold Edgerton 的一个老技巧,他是频闪灯、定格动画摄影的先驱。他表明,当以短曝光记录快速周期性运动以获取每帧图像时,运动会在帧之间持续多个周期,并且看起来比实际生活中慢得多。我们使用普通摄像机拍摄玻璃图像的短脉冲。当我们通过我们的运动显微镜放大视频时,这种频闪效果使我们能够在眼前看到玻璃在听到适当的音符时振动。

酒杯的结构性损坏可能会扰乱晚宴,但我们希望运动显微镜能够揭示更严重的后果,例如大型且可能存在危险的机器开始发生故障。显微镜可以捕捉可能表征机械故障的微小运动,并使其可见。我们在汽车正常怠速的高速视频中展示了这一原理。与管道一样,原始视频绝对没有显示任何机械部件的运动。然后,我们过滤了视频,以专注于 22 赫兹的发动机振动,阻止所有其他频率。将过滤后的变化放大 30 倍后,显示发动机的不同部件正在来回晃动。这对于发动机来说并不是异常现象,但这表明运动显微镜除了放大微小变化直到它们看起来足够大以至于可以看到之外,还可以挑选出可能异常的特定频段。此类视频可以突出显示和帮助诊断旋转或振动机械中发生故障的机械部件。

我们使用了类似的方法来显示在风中摇晃的巨型建筑起重机。虽然对于观察者来说显得很坚固,但运动显微镜显示起重机正在弯曲。这种起重机有一个正常的运动范围。如果起重机超出该范围,则可能预示着麻烦。我们正在与壳牌科学家 Dirk Smit 和 Sergio Kapusta 探索结构监测。

我们还可以逆向工程该过程。通过使用运动显微镜来突出显示物体(例如植物的叶子)的微小振动,我们与 Wadhwa 以及麻省理工学院的 Abe Davis 和 Adobe Research 的 Gautham Mysore 一起,重建了导致它们摇晃的声音类型。如果将这种方法应用于例如公共汽车终点站的混凝土坡道,则可能会识别出可能削弱结构的振动源。

运动显微镜也可用于揭示流体流动中的问题。当相邻两层空气或水的平稳流动变成湍流混合时,不稳定的波浪会在两层相遇的地方形成。当这种湍流在车辆(从汽车到飞机再到潜艇)周围形成时,会对它们的移动速度产生巨大影响。因此,研究它们非常重要。这些波浪在未经处理的视频中是看不到的,但是当在我们的视频显微镜中将特定运动频率放大 40 倍时,波浪不稳定性的迹象就会在观看者眼前显现出来。

使用该软件来揭示看不见的东西感觉就像戴上了魔法眼镜或突然获得了超人的视力。然而,这既不是神奇的,也不是漫画书创作者的梦想;它是对视频处理和图像数学表示进行基础研究的结果。它已经向科学家们展示了我们从理性上了解但从未亲眼见过的现象。它可能像几个世纪前的第一台光学显微镜一样,帮助人们识别对健康和安全的威胁。现在,它让我们感觉像是探险家,惊叹于一个全新的现象世界,这些现象一直存在于我们周围,只是隐藏在眼皮底下。

© . All rights reserved.