关于 OpenAI 新型文本到视频生成器 Sora,您需要知道的一切

一种将文本提示转换为详细视频的机器学习工具引发了兴奋和怀疑

A person holding a smart phone playing video generated by Sora AI of a woman walking down a city street at night

NurPhoto/Getty Images

乍一看,这段视频片段看起来像是音乐视频或时尚汽车广告的素材:一位戴着太阳镜的女士在夜间的城市街道上阔步走着,周围是行人和灯火通明的招牌。她的连衣裙和金色圈形耳环随着每一步摆动。但这并非电视广告或音乐视频的录像。事实上,这不是任何真实事物的片段。在屏幕之外,这位女士并不存在,这条街道也不存在。

视频中的一切都由 OpenAI 的新型文本到视频工具 Sora 创建,Sora 是这家 Dall-E 和 ChatGPT 背后的公司推出的最新生成式人工智能 (GAI) 小工具。给 Sora 一张简单的静止图像或一段简短的书面提示,它就可以生成长达一分钟的、令人惊叹的逼真视频——据称这只需要“出去吃卷饼”的时间。

OpenAI 于 2 月 15 日宣布了 Sora,但尚未向公众发布。该公司表示,目前正在限制部分艺术家和“红队”黑客的访问权限,他们分别测试生成器的有益用途和有害应用。但 OpenAI 在公告博客文章、一份简短的技术报告以及首席执行官兼创始人 Sam Altman 的 X 个人资料(前身为 Twitter)中分享了由新工具生成的数十个示例视频。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和思想的具有影响力的故事。


就其输出的持续时间和真实感而言,Sora 代表了人工智能生成视频领域最新进展。“[我和我的同事] 对 Sora 所展示的质量水平感到非常惊讶,”密歇根大学电气工程和计算机科学助理教授 Jeong Joon Park 说。Park 使用机器学习方法开发生成式三维建模技术。七个月前,Park 曾告诉大众科学 ,他认为仅凭文本就能生成照片般逼真视频的人工智能模型还很遥远,需要重大的技术飞跃。“我没想到视频生成器的改进速度会如此之快,Sora 的质量完全超出了我的预期,”他现在说道。他并不孤单。

Ruslan Salakhutdinov,卡内基梅隆大学计算机科学教授,也对 Sora 的质量和功能“感到有些惊讶”。Salakhutdinov 此前曾开发过其他基于机器学习的视频生成方法。他说,Sora “确实令人印象深刻”。

Sora 的出现表明某些人工智能的进步速度有多快,这得益于数十亿美元的投资——而这种惊人的速度也加速了人们对社会后果的担忧。Sora 和类似的工具威胁着许多创意领域数百万人的生计。它们也可能成为数字虚假信息的放大器。

Sora 的功能

Sora 可以生成长达 60 秒的视频,OpenAI 表示,用户可以通过要求该工具按顺序创建更多片段来延长视频时长。这绝非易事;以前的 GAI 工具难以保持视频帧之间的一致性,更不用说提示之间的一致性了。但尽管 Sora 具有这些功能,但它本身并不代表机器学习技术的重大飞跃。“他们的算法与现有方法几乎相同。他们只是在更大的数据和模型上对其进行了扩展,”Park 说。“不一定新颖,”Salakhutdinov 同意道。“这是一种蛮力方法。”

从基本层面来说,Sora 是一个非常庞大的计算机程序,经过训练,可以将文本字幕与相应的视频内容关联起来。更专业地说,Sora 是一种扩散模型(类似于许多其他图像生成人工智能工具),具有类似于 ChatGPT 的 Transformer 编码系统。通过从视频片段中迭代去除视觉噪声的过程,开发人员训练 Sora 从文本提示中生成输出。Sora 与图像生成器的主要区别在于,它不是将文本编码为静态像素,而是将单词转换为时空块,这些时空块共同构成一个完整的视频片段。谷歌的 Lumiere 和许多其他模型的工作方式类似。

OpenAI 尚未发布关于 Sora 开发或训练的太多信息,该公司拒绝回应《大众科学》的大部分问题。但包括 Park 和 Salakhutdinov 在内的专家一致认为,该模型的功能源于大量的训练数据和数十亿个在大量计算能力上运行的程序参数。OpenAI 表示,它在训练中依赖于许可的和公开可用的视频内容;一些计算机科学家推测,OpenAI 可能还使用了视频游戏设计程序(如虚幻引擎)生成的合成数据。Salakhutdinov 同意这种可能性很大,理由是输出结果异常平滑的外观以及一些生成的“摄像机”角度。他说,这种与视频游戏人工性的相似之处只是 Sora 虽然“非凡”,但远非完美的原因之一。

仔细检查这位女士步行的视频可以发现,某些细节不太对劲。她的连衣裙下摆的摆动对于布料来说有点太僵硬了,而且摄像机的平移感觉异常平滑。在切换到特写镜头时,连衣裙上出现了一种以前没有的斑点图案。在某些镜头中,项链不见了,皮夹克翻领上的扣件移动了,夹克本身也变长了。在 OpenAI 迄今为止分享的视频中,这类不一致之处随处可见,即使其中许多视频很可能经过精心挑选以制造宣传效果。在某些片段中,场景中整个人物或家具物品消失或突然增多。

可能性与风险

加州大学伯克利分校计算机科学教授 Hany Farid 说,如果人工智能视频的发展方式与图像生成相同,那么所有这些缺陷将很快变得不那么常见,也更难被发现。Farid 对 Sora 和其他文本到视频工具充满热情。他看到了“非常酷的应用”的潜力,这些应用可以让创作者更轻松地发挥他们的想象力。他补充说,这种技术还可以降低电影制作和其他通常很昂贵的艺术活动的入门门槛。

布法罗大学计算机科学教授 Siwei Lyu 说:“作为人工智能研究人员,这是我们一直梦想的事情。”“从科学角度来看,这是一项伟大的成就。”

但当计算机科学家可能看到成就和潜力时,许多艺术家可能会看到盗窃。与图像生成的前身一样,Sora 几乎肯定在其训练数据中包含一些受版权保护的材料。并且它很可能复制或密切模仿这些受版权保护的作品,并将其作为其自己的原创生成内容呈现。《机器中的鲜血》一书的作者、科技记者 Brian Merchant 已经发现至少一个案例,其中 Sora 剪辑片段似乎与训练数据集中的视频非常相似。在这两个视频中,一只引人注目的蓝色鸟,头顶有羽毛状的冠,眼睛是红色的,在绿色的树叶背景下呈现侧面轮廓。

当然,还有更广泛的担忧,即在未来,事实将越来越难以与虚构区分开来。

为虚假新闻火上浇油

通过他在检测深度伪造方面的工作,Farid 敏锐地意识到生成式人工智能可能被用于邪恶目的。与每一个新的快速简单的内容生成工具一样,Sora 势必会进一步加剧在线错误信息和虚假信息的长期存在的问题。目前,制作虚假视频需要结合人工智能修改和真实素材。文本到视频平台消除了用户对源材料的需求,加速和扩大了潜在的滥用。Farid 警告说,Sora 等工具可能是深度伪造色情制品政治宣传等有害内容的“放大因素”。

同样是数字取证专家的 Lyu 也表示担忧——尤其是对于那些可能浏览短视频并在未经仔细分析就吸收信息的普通社交媒体用户而言。“对于没有意识到的用户来说,人工智能生成的视频将非常具有欺骗性,”他警告说。而且,将需要新的分析工具来识别虚假内容。Lyu 和他的同事在 Sora 的视频上试用了一些现有的检测算法,他说“效果不太好”。在识别 Sora 的视频是否为人工智能生成方面,这些工具仅比随机猜测略好。

OpenAI 表示,它正在采取措施使 Sora 更安全,包括平台的有节制发布以及内部测试、内容护栏和使用名为内容来源和真实性联盟 (C2PA) 标准的协议,该协议使用元数据来更容易地判断内容的来源。Farid 和 Lyu 都认为这些步骤很重要,但它们不足以防止所有潜在的危害。他们说,对于每一项安全功能,都存在一种变通方法

对虚幻的现实检验

然而,虚假信息的存在不仅仅限于 Sora,马里兰大学研究错误信息和虚假信息的助理教授 Irene Pasquetto 说,解决这个问题最终是一个社会问题,而不是技术问题。她警告说,夸大 Sora 的风险或可能的危害很容易助长围绕人工智能的炒作氛围。Pasquetto 补充说,公司有经济动机来宣传他们的模型有多么强大——即使有些人认为这些产品对社会构成生存威胁。

她说,重要的是要将危害置于背景下考虑,并关注根本原因:尽管 Sora 使制作短视频变得更容易和更快——目前短视频是社交媒体上的主要内容——但就其本身而言,它并没有构成新的问题。已经有很多方法可以操纵在线视频。Pasquetto 说,即使是发布带有错误标题的真实录音也可能导致新的阴谋论。

虽然 Pasquetto 指出,社会、立法和教育解决方案对于阻止有害在线内容的传播是必要的,但她承认没有快速的解决方案。与此同时,请注意视频中的物体、地点和人物可能没有看起来那么真实。

© . All rights reserved.