2018年4月,一段关于巴拉克·奥巴马的新视频在互联网上浮出水面。背景包括美国国旗和总统旗帜,看起来像他之前的许多演讲。奥巴马身穿笔挺的白色衬衫和深色西装,面对镜头,用伸出的双手强调他的话语:“特朗普总统是个十足的白痴。”
他面无表情地继续说道。“你看,我永远不会说这些话。至少不会在公开演讲中说。但其他人会说。” 画面切换到分屏,露出了演员乔丹·皮尔。奥巴马什么也没说——这是一个真实的奥巴马演讲录音,与皮尔的模仿相结合。并排播放,信息继续传递,皮尔就像一个数字腹语术者,把更多的话塞进这位前总统的嘴里。
在这个假新闻时代,这段视频是由BuzzFeed新闻制作的公共服务公告,展示了一项新的人工智能(AI)技术的应用,这项技术可以像Photoshop对数字图像所做的那样,对音频和视频进行处理:允许操纵现实。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。
结果仍然相当粗糙。仔细听和看,奥巴马的声音有点鼻音。短暂闪烁间,他的嘴——与皮尔的嘴融合在一起——偏离了中心。但是这项快速发展的技术,旨在用于好莱坞电影剪辑师和视频游戏制作者,已经让一些国家安全专家和媒体学者的想象力变得黑暗。下一代工具可能会从头开始制作出令人信服的假货——不是像奥巴马演讲那样扭曲现有镜头,而是精心策划从未发生过的场景。
对公众知识和讨论的后果可能是深远的。例如,想象一下,如果在激烈的竞争中,一段伪造的视频抹黑了一位政治家,会对即将到来的选举产生什么影响。或者在公开发行前夜攻击了一位首席执行官。一个团体可能会策划一次恐怖袭击,并欺骗新闻媒体进行报道,从而引发本能的报复。即使一段病毒式传播的视频后来被证明是假的,公众仍然会相信它是真的吗?也许最令人不安的是:如果普遍存在的假货的想法让我们停止相信我们所看到和听到的大部分内容——包括真实的内容,那该怎么办?
许多技术专家承认这项技术可能被广泛滥用。但斯坦福大学法学教授内特·珀西利说,虽然他们专注于“用于检测和披露的性感解决方案,但他们花在弄清楚这些解决方案是否真的对人们对假视频有效性的信念产生影响的时间非常少”。珀西利研究的课题包括互联网如何影响民主,他是一群越来越多的研究人员之一,他们认为仅靠技术手段无法遏制病毒式虚假信息。这将需要心理学家、社会科学家和媒体专家的投入,以帮助理清这项技术将如何在现实世界中落地。
“我们现在必须这样做,”珀西利说,“因为目前技术专家——必然地——主导着关于人工智能生成视频可能实现什么的讨论”。我们对政府和新闻等民主机构的信任已经消退。社交媒体是信息传播的主要渠道,今天假新闻制造者更容易利用我们。在没有连贯的战略来应对日益复杂的技术的情况下,我们脆弱的集体信任面临着更大的风险。
无害的开端
伪造视频的路径可以追溯到20世纪60年代,当时计算机生成图像首次被构想出来。在20世纪80年代,这些特效变得主流,从那时起,影迷们见证了这项技术从科幻电影发展到1994年《阿甘正传》中阿甘与约翰·肯尼迪握手,再到《侠盗一号》中彼得·库欣和凯丽·费雪的复活。南加州大学计算机科学副教授、增强现实初创公司Pinscreen的首席执行官李浩说,目标始终是“创建一个数字世界,让任何故事讲述都成为可能”。“我们如何创造出看起来真实的东西,但实际上一切都是虚拟的?”
早期,大多数图形来自艺术家,他们使用计算机创建三维模型,然后手工绘制纹理和其他细节——这是一个繁琐的过程,无法扩大规模。大约20年前,一些计算机视觉研究人员开始以不同的方式思考图形:与其花费时间在单个模型上,为什么不教计算机从数据中创建呢?1997年,加利福尼亚州帕洛阿尔托的Interval Research Corporation的科学家开发了Video Rewrite,它切分了现有镜头并重新配置了它。研究人员制作了一段肯尼迪说“我从未见过阿甘”的片段。不久之后,德国蒂宾根马克斯·普朗克生物控制论研究所的科学家教会计算机从200个三维人脸扫描的数据集中提取特征,从而制作出一张新的人脸。
计算机视觉、数据和自动化之间关系的最大近期飞跃可以说发生在2012年,这得益于一种名为深度学习的人工智能的进步。与20世纪90年代末使用静态数据且从未改进的工作不同,深度学习可以适应并变得更好。现在在斯坦福大学传播系的李晓畅说,这种技术将物体(例如人脸)简化为数据位。“工程师们正是在这个时候说:我们不再对事物建模了,”她说。“我们将对我们对事物的无知建模,并仅运行数据以了解模式。”

技术最初是为了在电影中创建虚拟场景而开发的(1),现在已经演变成可以用来制作虚假视频(2)来传播虚假信息的工具。图片来源:《阿甘正传》电影剧照,派拉蒙影业,1994年(1);《你不会相信奥巴马在这段视频中说了什么!》电影剧照,Monkeypaw Productions和Buzzfeed,2018年4月17日(2)
深度学习使用称为神经网络的简单数学公式层,这些公式随着时间的推移会在任务中变得更好。例如,计算机科学家可以通过向深度学习工具提供成百上千张照片,并基本上每次都说这是一张脸或这不是一张脸来教会它识别人脸。最终,当该工具遇到一个新人时,它将识别构成人脸特征的模式,并从统计学上说,这也是一张脸。
接下来是使用称为生成网络的深度学习工具来构想看起来像真人的面孔的能力。同样的逻辑适用:计算机科学家在成百上千张图像上训练网络。但是这一次,网络遵循它从示例中收集的模式来制作一张新的人脸。一些公司现在正在音频方面使用相同的方法。2018年,谷歌推出了Duplex,这是一个基于名为WaveNet的软件的人工智能助手,它可以拨打电话,听起来像真人——包括嗯和嗯哼等口头语。未来,政治家的虚假视频可能不需要像皮尔这样的演员的模仿。2017年4月,加拿大初创公司Lyrebird发布了听起来令人毛骨悚然地像奥巴马、特朗普和希拉里·克林顿的音频样本。
但是生成网络需要大型数据集进行训练,这可能需要大量的人工劳动。改进虚拟内容的下一步是教会人工智能自我训练。2014年,蒙特利尔大学的研究人员通过生成对抗网络或GAN实现了这一点,该网络将两个神经网络置于对话中。第一个是生成器,它制作虚假图像,第二个是判别器,它学习区分真实图像和虚假图像。在几乎没有人为监督的情况下,网络通过竞争相互训练——判别器推动生成器制作越来越逼真的假货,而生成器不断尝试欺骗判别器。GAN可以制作各种各样的东西。在加州大学伯克利分校,科学家们构建了一个可以将马的图像变成斑马,或将莫奈等印象派画家的画作转变为清晰的、照片般逼真的场景的GAN。
然后,在2018年5月,德国萨尔布吕肯马克斯·普朗克信息学研究所的研究人员及其同事揭示了“深度视频”,它使用了一种GAN。它允许演员控制预先录制的镜头中其他人的嘴、眼睛和面部动作。深度视频目前仅在肖像设置中有效,即一个人直接看着镜头。如果演员移动太多,生成的视频会出现明显的数字伪影,例如面部周围的像素模糊。
GAN尚无法构建与真实镜头中捕捉到的场景无法区分的复杂视频场景。有时GAN会产生奇怪的东西,例如一个人额头上长出一只眼球。然而,在2018年2月,NVIDIA公司的研究人员找到了一种方法,通过从相对较小的照片开始训练,然后逐步提高分辨率,使GAN制作出分辨率极高的人脸。南加州大学李浩的团队也使用GAN制作了逼真的皮肤、牙齿和嘴巴,所有这些都出了名的难以进行数字重建。
对于非专业人士来说,这些技术都不容易很好地使用。但BuzzFeed的实验暗示了我们可能的未来。这段视频来自名为FakeApp的免费软件——它使用了深度学习,但不是GAN。生成的视频被称为deepfakes,是“深度学习”和“假”的混合词,以网站Reddit上的一个用户命名,他与其他人一起是早期采用者,并使用这项技术将名人的脸换到色情片中。从那时起,网络上的业余爱好者使用FakeApp制作了无数视频——其中大多数是相对无害的恶作剧,例如将演员尼古拉斯·凯奇添加到他没有参演的一堆电影中,或将特朗普的脸变形到德国总理安格拉·默克尔的身体上。更不祥的是其影响。既然这项技术已经民主化,任何拥有计算机的人都可以在理论上使用它。
假新闻的条件
专家们长期以来一直担心计算机辅助编辑会毁掉现实。早在2000年,《麻省理工科技评论》上一篇关于Video Rewrite等产品的文章就警告说,“眼见不再为实”,并且“晚间新闻中的图像很可能是一个假货——快速的新视频操纵技术的捏造”。20年后,虚假视频似乎并没有充斥新闻节目。原因之一是,制作一个真正好的视频仍然很难。BuzzFeed在专业视频编辑的帮助下花了56个小时才制作出奥巴马的片段。
然而,我们消费信息的方式发生了变化。皮尤研究中心的数据显示,今天只有大约一半的美国成年人在电视上看新闻,而三分之二的人至少通过社交媒体获取一些新闻。互联网允许大量媒体涌现,以迎合小众受众——包括有意煽动愤怒的极度党派网站,这些网站不受传统新闻标准的约束。珀西利说,互联网奖励病毒式内容,我们可以比以往任何时候都更快地分享这些内容。而且,与客厅电视相比,虚假视频中的故障在微小的手机屏幕上更难以辨别。
现在的问题是,如果一段具有重大社会或政治影响的深度伪造视频在网上疯传,会发生什么?加州州立理工大学圣路易斯奥比斯波分校伦理与新兴科学小组的研究员朱莉·卡彭特研究人机交互,她说,对于这样一个新的、几乎未经研究的领域,简短的答案是我们不知道。随着今年秋季美国以及国际上的重要选举即将到来,我们可能会很快找到答案。
我们已经目睹了当连接性和虚假信息碰撞时产生的后果。假新闻——旨在看起来像合法新闻报道并进行病毒式传播的捏造的文本故事——是2016年美国总统大选期间备受关注的特征。普林斯顿大学、达特茅斯学院和英国埃克塞特大学的合作研究表明,在2016年10月7日至11月14日之间的五周内,大约四分之一的美国人访问了假新闻网站,主要是通过他们的Facebook信息流渠道。此外,2016年标志着公众对新闻业信任度的低谷。据估计,只有51%的民主党人和14%的共和党人表示他们信任大众媒体。
关于书面假新闻的科学研究是有限的。但萨斯喀彻温省里贾纳大学组织行为学助理教授戈登·彭尼库克说,一些研究表明,仅看到一次虚假信息就足以使其在以后看起来似乎是可信的。目前尚不清楚原因,但这可能是由于“流畅性”或“处理的容易程度”造成的。如果我们听到奥巴马称特朗普为脏话,然后稍后遇到另一个奥巴马称特朗普为淫秽名称的虚假例子,我们可能会倾向于认为它是真实的,因为它很熟悉。
根据麻省理工学院一项追踪2006年至2017年间Twitter上126,000个故事的研究,我们也更有可能分享假新闻而不是真实新闻——尤其是虚假政治故事,其传播范围和速度超过了关于金钱、自然灾害或恐怖主义的故事。该论文表明,人们渴望新奇事物。总的来说,假新闻迎合了我们的情感和个人身份,诱使我们在有机会处理信息并决定是否值得传播之前就做出反应。内容越令人惊讶、恐惧或愤怒,我们似乎就越会分享它。
有令人不安的线索表明,视频可能在引发恐惧方面特别有效。“当你以视觉方式处理信息时,你会相信这件事在空间、时间或社会群体方面离你更近,”布朗大学认知、语言和心理科学助理教授埃莉诺·阿米特说,她的工作梳理了我们与文本和图像的关系方式的差异。她假设这种区别是进化性的——我们的视觉发展先于书面语言,我们更多地依赖我们的感官来检测迫在眉睫的危险。
事实上,虚假视频已经冲击了政治竞选活动。2018年7月,保守派评论的电视节目主持人艾莉·贝丝·斯图基在Facebook上发布了对纽约市民主党国会候选人亚历山大·奥卡西奥-科尔特斯的采访。这段视频不是深度伪造,而是对真实采访的旧式拼接,并添加了新问题,使奥卡西奥-科尔特斯显得回答笨拙。根据你的政治立场,这段视频要么是抹黑,要么,正如斯图基后来在为自己辩护时所说的那样,是讽刺。无论如何,它在一周内获得了340万次观看和超过5000条评论。一些观众似乎认为奥卡西奥-科尔特斯搞砸了一次真实的采访。“天啊!她不知道该怎么回答,”一位观众写道。“她太蠢了。”
所有这一切都令人担忧,这本身就是问题的一部分。我们的阴暗沉思可能实际上比视频本身对社会更糟糕。例如,政客们可能会在他们的真实不当行为被录像带拍到时,声称这些视频是伪造的,从而散布怀疑。路易斯安那州立大学大众传播学副教授雷蒙德·J·平格里说,知道令人信服的假货甚至有可能存在,可能会侵蚀我们对所有媒体的信任。平格里研究人们对评估什么是真实和什么不是真实的能力有多大信心,以及这如何影响他们参与政治进程的意愿。他说,当个人失去这种信心时,他们更有可能被骗子和骗徒所欺骗,“这可能会让人不想寻求真相。”
猫鼠游戏
对于计算机科学家来说,解决错误的方法通常只是更多的计算机科学。尽管这里讨论的错误远比糟糕的编码复杂得多,但社区中有一种感觉,即可以构建算法来标记假货。
“当然,在解决这个问题方面可以取得技术进步,”麻省理工学院互联网政策研究倡议组织的R·大卫·埃德尔曼说。曾在奥巴马政府担任技术顾问的埃德尔曼对这位前总统的伪造视频印象深刻。“我认识这个人。我为他写过演讲稿。我无法分辨真假视频之间的区别,”他说。但埃德尔曼说,虽然他可能会被愚弄,但算法可能会捕捉到人眼看不见的“蛛丝马迹和数字签名”。
到目前为止,修复方法分为两类。一种方法通过嵌入数字签名来证明视频是真实的,这类似于货币印刷商用来阻止造假者的复杂印章、全息图和其他特征。每台数码相机都将具有独特的签名,从理论上讲,这将难以复制。
第二种策略是用检测器自动标记虚假视频。可以说,对这种检测器最重要的推动力是国防高级研究计划局的媒体取证计划,简称MediFor。它于2015年启动,不久之后,一家俄罗斯新闻频道播放了乌克兰战斗机击落马来西亚航空公司17号航班的虚假卫星图像。后来,一个国际调查小组将该航班的坠毁归咎于一枚俄罗斯导弹。这些卫星图像不是用深度学习制作的,但MediFor的前项目经理大卫·多尔曼说,DARPA看到了即将到来的革命,并希望找到一种方法来对抗它。
MediFor正在采取三种广泛的方法,这些方法可以通过深度学习实现自动化。第一种方法检查视频的数字指纹是否存在异常。第二种方法确保视频遵循物理定律,例如阳光以在现实世界中应有的方式照射。第三种方法检查外部数据,例如据称拍摄当天的天气。DARPA计划将这些检测器统一到一个工具中,该工具将给出视频是假的可能性评分。
这些策略可以减少假货的数量,但这仍然是一场猫鼠游戏,造假者会模仿数字水印或构建深度学习工具来欺骗检测器。“我们不会赢得这场游戏,”加州大学伯克利分校计算机科学与电气工程教授阿列克谢·埃夫罗斯说,他正在与MediFor合作。“只是我们会让坏人更难玩这场游戏。”
达特茅斯学院计算机科学教授哈尼·法里德说,无论如何,这些工具还需要几十年才能问世。随着虚假视频的不断改进,唯一现有的技术解决方案是依靠像法里德这样的数字取证专家。“世界上只有少数人可以和你谈论这件事,”他说。“我是其中之一。我无法扩展到互联网。”
拯救现实
即使我们每个人最终都可以使用检测器来解析互联网,谎言和真相之间总会存在滞后。这就是社交媒体行业阻止虚假视频传播面临挑战的原因之一。“这是一个传播问题,同时也是一个创作问题,”埃德尔曼说。“如果一段深度伪造视频落在森林里,除非Twitter和Facebook放大它,否则没有人会听到它。”
在遏制病毒式虚假信息传播方面,社交媒体公司有哪些法律义务尚不清楚,以及是否可以在不践踏言论自由的情况下对该行业进行监管。Facebook首席执行官马克·扎克伯格终于承认他的平台在传播假新闻方面发挥了作用——尽管这距离2016年大选已经过去了10个多月。毕竟,Facebook旨在让用户消费和传播内容,优先考虑流行的内容而不是真实的内容。凭借每月超过20亿的活跃用户,对于任何想要引发令人愤怒的虚假故事的人来说,它都是一个火药桶。
从那时起,扎克伯格承诺采取行动。他正在通过要求用户对新闻来源的可信度进行排名(一些人认为这是推卸责任的举动)来将一些负担转移给用户,并计划使用人工智能来标记虚假信息。该公司对细节一直守口如瓶。一些计算机科学家对人工智能的角度持怀疑态度,包括法里德,他说这些承诺“天真得惊人”。很少有独立的科学家能够研究假新闻如何在Facebook上传播,因为许多相关数据都处于锁定状态。
尽管如此,如果构建虚假视频技术的研究人员不认真思考他们的产品在离开实验室后将被如何使用和滥用,那么世界上所有的算法和数据都无法将我们从虚假信息宣传活动中拯救出来。“这是我的请求,”珀西利说,“做这项工作的硬科学科学家必须与心理学家、政治科学家和传播专家——他们已经在这些问题上工作了一段时间——配对。” 这种合作一直很罕见。
然而,在2018年3月,芬兰人工智能中心宣布了一项计划,该计划将邀请心理学家、哲学家、伦理学家和其他人帮助人工智能研究人员掌握他们工作更广泛的社会影响。一个月后,珀西利与哈佛大学政治学家加里·金一起启动了社会数据倡议。该项目将首次允许社会科学家访问Facebook数据,以研究虚假信息的传播。
由于高层责任真空,找出虚假视频的责任落在了记者和公民侦探身上。在奥巴马和皮尔的深度伪造视频结尾,两人都说:“展望未来,我们需要对我们从互联网上信任的东西保持更加警惕。现在是我们需要依靠可信新闻来源的时候了。” 这可能是一个假货,但它是真实的。