剧透警告：人工智能可以预测场景如何发展

一种新的AI系统可以生成与人类在视觉上想象场景如何演变相似的短视频

一项新的研究表明，一种新的人工智能系统可以获取静态图像并生成短视频，模拟接下来会发生什么，类似于人类在视觉上想象场景如何演变的方式。

人类直观地了解世界是如何运作的，这使得人们更容易（而不是机器）设想场景将如何发展。但静态图像中的物体可以以多种不同的方式移动和交互，这使得机器很难完成这项壮举，研究人员说。但是，一种新的、所谓的深度学习系统在与真实镜头进行比较时，能够欺骗人类 20% 的时间。

麻省理工学院 (MIT) 的研究人员让两个神经网络相互对抗，一个试图区分真实视频和机器生成的视频，另一个试图创建足够逼真的视频来欺骗第一个系统。[超级智能机器：7 个机器人未来]

支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保关于塑造我们当今世界的发现和想法的有影响力的故事的未来。

这种设置被称为“生成对抗网络”(GAN)，系统之间的竞争导致视频越来越逼真。当研究人员要求亚马逊 Mechanical Turk 众包平台上的工作人员选择哪些视频是真实的时，用户有 20% 的时间选择了机器生成的视频而不是真实的视频，研究人员说。

早期阶段

尽管如此，新晋的电影导演可能还不需要太担心机器会取代他们的工作——视频只有 1 到 1.5 秒长，分辨率为 64 x 64 像素。但研究人员表示，该方法最终可以帮助机器人和自动驾驶汽车在动态环境中导航并与人类互动，或者让 Facebook 自动用描述正在发生的事情的标签来标记视频。

“我们的算法可以生成相当逼真的视频，展示它认为未来会是什么样子，这表明它在某种程度上理解当前正在发生的事情，”领导这项研究的麻省理工学院计算机科学和人工智能实验室博士生卡尔·冯德里克说。“我们的工作是一个令人鼓舞的进展，表明计算机科学家可以赋予机器更高级的情境理解能力。”

研究人员说，该系统还能够进行无监督学习。这意味着该系统训练过的 200 万个视频（相当于大约一年的镜头）不必由人标记，这大大减少了开发时间并使其能够适应新数据。

在将于 12 月 5 日至 10 日在西班牙巴塞罗那举行的神经信息处理系统 (NIPS) 会议上发表的一项研究中，研究人员解释了他们如何使用海滩、火车站、医院和高尔夫球场的视频来训练该系统。

“在早期的原型中，我们发现的一个挑战是模型会预测背景会扭曲变形，”冯德里克告诉 Live Science。为了克服这个问题，他们调整了设计，使系统学习静态背景和移动前景的单独模型，然后再将它们组合起来生成视频。

人工智能电影制作人

麻省理工学院团队并不是第一个尝试使用人工智能从头开始生成视频的团队。但是，研究人员表示，以前的方法倾向于逐帧构建视频，这会导致错误在每个阶段累积。相反，新方法一次处理整个场景——通常一次处理 32 帧。

非营利组织 OpenAI 的研究科学家、GAN 的发明者伊恩·古德费洛表示，该领域早期工作的系统无法像这种方法那样生成清晰的图像和运动。然而，他补充说，谷歌的 DeepMind 人工智能研究部门上个月推出了一种新方法，称为视频像素网络 (VPN)，能够生成清晰的图像和运动。[有史以来最奇怪的 6 个机器人]

“与 GAN 相比，VPN 更容易训练，但生成视频所需的时间更长，”他告诉 Live Science。“VPN 必须一次生成一个像素的视频，而 GAN 可以同时生成许多像素。”

冯德里克还指出，他们的方法适用于更具挑战性的数据，例如从网络上抓取的视频，而 VPN 则在专门设计的、描绘弹跳数字或机器人手臂的基准训练视频集上进行了演示。

然而，结果远非完美。研究人员说，通常，前景中的物体看起来比它们应该的更大，而且人类在镜头中可能显得模糊。物体也可能从场景中消失，而其他物体则可能凭空出现，他们补充说。

“计算机模型一开始对世界一无所知。它必须学习人是什么样子、物体如何移动以及可能发生什么，”冯德里克说。“该模型尚未完全学习这些东西。扩展其理解物体等高层次概念的能力将大大改善生成效果。”

冯德里克表示，未来面临的另一个巨大挑战是创建更长的视频，因为这将要求系统跟踪场景中物体之间更多、更长时间的关系。

“为了克服这个问题，最好加入人工输入来帮助系统理解场景中它自己难以学习的元素，”他说。