2012年12月21日

爱德华、贝拉和麦格克效应：为什么糟糕的唇形同步如此有趣

“你打了一条鱼。你为什么要那样做？” “我想吃海鲜。” 截至撰写本文时，这段爱德华和贝拉的“糟糕唇形同步”视频观看次数已接近 1600 万，客观上来说非常搞笑。

本文发表于《大众科学》的前博客网络，反映了作者的观点，不一定代表《大众科学》的观点

“你打了一条鱼。你为什么要那样做？”

“我想吃海鲜。”

关于支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道：订阅。通过购买订阅，您将帮助确保未来能够继续讲述关于塑造我们当今世界的发现和思想的具有影响力的故事。

截至撰写本文时，这段爱德华和贝拉的“糟糕唇形同步”视频观看次数已接近 1600 万，客观上来说非常搞笑。互联网上充斥着有趣的唇形同步视频，将荒谬的台词塞进从米特·罗姆尼到贝恩等所有人的嘴里。似乎对嘲笑他人的共同爱好决定了这些视频很有趣，事实就是如此。但为什么呢？最好的“糟糕唇形同步”利用了我们大脑处理语音的方式。

不仅仅是我们听到的

语音识别是许多不同的内部模式搜索程序的串联，所有程序都在寻找从语音的音调和音量到人的嘴部物理运动的微小变化。因此，不仅仅是你听到的，还有你看到的。

即使语音主要是听觉的，我们也会根据上下文（有意识和无意识地）优先考虑我们获得的信息类型。例如，在观看一部特别长的外国电影时，我们学会忽略语音的视觉（即嘴部动作）和听觉方面，而只关注屏幕上的文字。这不是我们通常认识的语音，但任何经历过糟糕配音电影的人都知道，屏幕上的文字与说话者越难联系起来，你就越能意识到你酸痛的后背。我们的大脑试图将甚至脱离身体的文字与它们的主人同步起来。

同样地，想象一下你在一个拥挤的“世界末日”派对上看到一个朋友穿过房间。他们的声音几乎被“播放江南 Style！”的点播声淹没，所以你专注于他们的嘴部动作。将最少的听觉输入添加到“增强的”视觉输入中，你就能勉强分辨出他们想要再来一杯啤酒。

因为在语音过程中减少我们看到或听到的任何一个方面都会削弱整体，这表明语音感知不仅仅是像听觉这样的一种感官的聚合。它是多模式的。

但对语音的解释并不是我们大脑交叉多条线路的唯一情况，可以这么说。味觉是另一种多模式感知。例如，当从带有铁管道的饮水机中喷出的水尝起来像铁时，实际上你是在闻铁的味道，然后这种味道会在你的大脑中与水的“铁锈”味结合起来（因为舌头上没有“铁”味觉受体）。

作为这种联系有多强的另一个例子，想想吃绿色炸薯条或黄色牛排。即使食物完全正常，我敢打赌你也会犹豫是否要咬一口。或者考虑一下水晶百事可乐的悲惨案例。1992 年，百事可乐决定将其汽水的颜色从棕色改为透明色，同时保持相同的调味和成分。汽水的销量暴跌。它于 1993 年从货架上撤下。

正如你闻到的和你舌头上感知到的可以共同构成我们品尝到的味道一样，我们看到和听到的人们说话的声音结合起来形成了我们对某人所说内容的感知。

麦格克效应

也许没有什么比错觉更能让我们质疑我们实际感知世界的方式了。它们不仅让我们惊叹，还为大脑如何处理感官信息提供了线索。最常见的视错觉之一，“内克尔立方体”因其不断变化的深度而如此神秘，因为我们的大脑对立方体应该是什么样子有相互竞争的 3D 模型。当它在它们之间任意翻转时（在一定程度上受到对某些细节的关注的驱动），我们寻求模式的头脑揭示了它们的软件。也有语音错觉。

麦格克效应是一种现象，其中一种声音的听觉成分与第二种声音的视觉成分结合在一起，从而产生感知的第三种声音。为了有效地做到这种错觉，你需要一个配音视频。在视频中，扬声器口型发出音节“va/va/va”，同时在视频上播放“ba/ba/ba”的声音。然后你看到的东西会覆盖你听到的东西，将播放的声音“ba/ba/ba”在你脑海中更改为“va/va/va”，即使音频从未改变。如果你想让你的大脑充分地被这种错觉所震撼，你可以观看这段 BBC 视频。真正令人惊奇的是，在错觉期间，如果你闭上眼睛，从而关闭语音识别的视觉部分，错觉会立即消散！（上面链接的视频在指出这一点方面做得非常出色。）这种错觉的开/关开关再清楚不过了：语音感知远不止我们听到的。

这当然将我们带回了《暮光之城》。

取笑闪闪发光、面色苍白的吸血鬼

为了成功地干扰我们的语音感知，《暮光之城》“糟糕唇形同步”视频中替换的词语需要有伴随的嘴部动作，当说出这些词语时，可以模仿电影中的原始台词。然后，幽默感就从这种在看似合理性的钢丝上行走的举动中产生——唇形同步足够接近以迷惑我们，但又远未完美，这非常搞笑。当词语与嘴部动作更准确地同步时，它会变得更有趣（并且对每个角色的良好模仿也有帮助，如这个惊人的贝恩模仿的例子）。将所有这些与你正在观看贝拉责骂爱德华打鱼的事实结合起来，你就得到了一个病毒式传播的视频。

并不是说你在这些视频中看到的是不正确的语音；实际上你看到的是不同的语音。正如将炸薯条染成绿色会使其味道令人厌恶一样，一个吸血鬼用看似正确的嘴部动作谈论吃蛋糕是令人捧腹大笑的，因为我们试探性地将其感知为真品。

再次观看其中一个视频，注意你是如何不可避免地被吸引去研究说话者的嘴，看看匹配程度有多接近，检查它是否“真实”。即使同步不完美，因为我们希望得到娱乐，我们也会对不可避免地将荒谬的词语和短语硬塞到视频中给予余地；荒谬的变成真实的。

当我们没有嘴部可供检查时，文字可以塑造我们识别为语音的东西。例如，这段视频展示了将古典作品《哦，命运女神》误听为一首关于男人喜欢奶酪的歌曲是多么容易（和搞笑）。将唇形同步和文字与我们听到的内容结合起来，你就得到了一个厌倦了巴拉克·奥巴马的精灵。

我认为这一切都归结为可信度。一开始我们就不会相信爱德华会问老鼠是否有“小弟弟”。但如果模仿得体，如果嘴部动作同步，我们就会暂停我们的怀疑，沉浸在一个青少年梦幻吸血鬼会问这种问题的现实中。同样地，我们中的许多人都知道大多数音乐视频实际上都是唇形同步的，但我们已经非常擅长同步它们，以至于似乎没有人介意。对未来的视频制作者的底线是：充分利用我们的多模式语音感知，你就可以把任何人变成腹语表演者的木偶。

特别紧密的同步会立即引起“看起来他们实际上就是这么说的！”的反应。在某种程度上，确实如此，而且非常有趣。

进一步观看：更多“糟糕唇形同步”视频