本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
“你扇了一条鱼耳光。你为什么要那样做?”
“我想吃海鲜。”
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将有助于确保有关塑造我们当今世界的发现和观点的有影响力的故事的未来。
截至撰写本文时,这段“糟糕的唇形同步”爱德华和贝拉的视频观看次数已接近 1600 万次,客观上来说非常搞笑。互联网上充斥着有趣的唇形同步视频,给从米特·罗姆尼到贝恩的每个人都配上了荒谬的台词。似乎对嘲笑他人的共同爱好决定了这些视频很有趣,仅此而已。但为什么呢?最好的“糟糕唇形同步”利用了我们大脑处理语音的方式。
不仅仅是我们听到的
语音识别是许多不同的内部模式搜索程序的串联,所有程序都在寻找从语音的音调和音量到人嘴唇的物理运动的微小变化。因此,不仅仅是你听到的,还有你看到的。
即使语音主要是听觉的,我们也会根据上下文(有意识和无意识地)优先考虑我们获得的信息类型。例如,在观看一部特别长的外国电影时,我们学会忽略语音的视觉方面(即嘴唇的运动)和听觉方面,而只关注屏幕上的文字。这不是我们通常识别的语音,但任何经历过糟糕配音电影的人都知道,屏幕上的文字与说话者联系起来越困难,你就越会意识到你酸痛的后背。我们的大脑试图将甚至脱离身体的文字与其所有者同步。
同样,想象一下,你在拥挤的“世界末日”派对上看到一位朋友在房间对面。在“播放江南Style!”的喧嚣声中,他们几乎听不见,所以你全神贯注地注视着他们的嘴唇运动。将最少的听觉输入添加到“增强”的视觉输入中,你就勉强能看出他们想要再来一杯啤酒。
因为在语音过程中,减少我们看到的或听到的都会削弱整体,这表明语音感知不仅仅是像听觉这样的一种感官的聚合。它是多模式的。
但对语音的解释并不是我们大脑交叉多条线路的唯一情况。味觉是另一种多模式感知。例如,当从带有铁管的饮水器中喷出的水尝起来像铁时,实际上你是在闻铁的味道,然后在你的大脑中将其与水的“铁味”结合起来(因为舌头上没有“铁”味觉感受器)。
作为这种联系有多强的另一个例子,想想吃绿色的炸薯条或黄色的牛排。即使食物完全正常,我敢打赌你也会犹豫要不要咬一口。或者想想水晶百事可乐的悲惨案例。1992 年,百事可乐决定将其汽水的颜色从棕色改为透明,同时保持相同的调味和成分。汽水的销量暴跌。它在 1993 年从货架上撤下。
正如你闻到的和你舌头上感知到的可以共同构成我们尝到的味道一样,当人们说话时我们看到的和我们听到的结合起来,形成了我们对某人所说内容的感知。
麦格克效应
也许没有什么比幻觉更能让我们质疑我们如何真正感知世界了。它们不仅让我们惊叹,还为大脑如何处理感官信息提供了线索。最常见的视错觉之一,“内克尔立方体”因其不断变化的深度而如此神秘,因为我们的大脑对立方体应该是什么样子有相互竞争的 3D 模型。当它在它们之间任意翻转时(在一定程度上受对某些细节的关注驱动),我们寻求模式的思维揭示了它们的软件。也有语音错觉。
麦格克效应是一种现象,其中一个声音的听觉成分与第二个声音的视觉成分结合,从而产生感知的第三个声音。为了有效地做到这种错觉,你需要一个配音视频。在视频中,说话者嘴唇说出音节“va/va/va”,同时在视频上播放“ba/ba/ba”的声音。然后你看到的东西会覆盖你听到的东西,将播放的“ba/ba/ba”声音在你脑海中变成“va/va/va”,即使音频从未改变。如果你想让你的大脑充分震撼这种错觉,你可以观看这段 BBC 视频。真正令人惊奇的是,在错觉发生期间,如果你闭上眼睛,从而关闭语音识别的视觉部分,错觉会立即消散!(上面链接的视频在指出这一点方面做得非常出色。)这种错觉的开/关开关再清楚不过了:语音感知远不止我们听到的。
这当然使我们回到了《暮光之城》。
嘲笑闪闪发光的苍白吸血鬼
为了成功地干扰我们的语音感知,《暮光之城》“糟糕的唇形同步”视频中替换的词语需要有伴随的嘴唇运动,当说出这些词语时,会模仿电影中的原始台词。幽默感由此产生于这种在看似合理性钢丝上行走的技巧——唇形同步足够接近以迷惑我们,但又远未完美,这非常搞笑。当词语与嘴唇运动更直接地同步时,它会变得更有趣(对每个角色的良好印象也有帮助,例如这段令人惊叹的贝恩模仿)。将所有这些与你正在观看贝拉责骂爱德华殴打鱼的场景结合起来,你就得到了一个病毒式传播的视频。
不是你在这些视频中看到的是不正确的语音;事实上,你看到的是不同的语音。正如将炸薯条染成绿色会使其味道令人厌恶一样,吸血鬼用看似正确的嘴唇动作谈论吃蛋糕之所以令人捧腹大笑,是因为我们暂时将其感知为真品。
再次观看其中一个视频,并注意你如何不可避免地被吸引去研究说话者的嘴唇,看看匹配程度有多接近,以检查它是否“真实”。即使同步不完美,因为我们希望得到娱乐,我们也会对不可避免地将荒谬的词语和短语硬塞到视频中给予宽容;荒谬的变成了真实的。
当我们没有嘴唇可以检查时,文字可以塑造我们识别为语音的内容。例如,这段视频展示了将古典作品《O Fortuna》误认为是一首关于男人喜欢奶酪的歌曲是多么容易(和搞笑)。将唇形同步和文字结合到我们听到的内容中,你就得到了一个厌倦了巴拉克·奥巴马的精灵。
我认为这一切都归结为可信度。我们一开始就不相信爱德华问过老鼠是否有“小弟弟”。但是,如果印象不错,如果嘴唇运动同步,我们就会暂停怀疑,沉浸在青少年梦幻吸血鬼提出此类问题的现实中。同样,我们中的许多人都知道大多数音乐视频实际上都是唇形同步的,但我们已经非常擅长同步它们,以至于似乎没有人介意。对未来的视频制作者的底线是:充分利用我们的多模式语音感知,你可以把任何人变成腹语表演者的傀儡。
特别紧密的同步会立即引起“看起来他们实际上就是这么说的!”的反应。在某种程度上,确实如此,而且非常有趣。
进一步观看:更多“糟糕唇形同步”视频