要了解最优秀的人工智能与七岁儿童的智力之间的差距,只需看看流行的视频游戏《我的世界》。一个年轻人观看 YouTube 上 10 分钟的演示后,就可以学会如何在游戏中找到稀有钻石。人工智能 (AI) 还远远达不到这种水平。但在本月结束的一场独特的计算机竞赛中,研究人员希望缩小机器与儿童之间的差距,并通过这样做,帮助减少训练人工智能所需的计算能力。
参赛者最多可以使用四天时间,并且使用不超过八百万步来训练他们的人工智能找到钻石。这仍然比孩子学习所需的时间长得多,但比目前典型的人工智能模型快得多。
该竞赛旨在促进一种名为模仿学习的方法的进步。这与一种流行的技术强化学习形成对比,在强化学习中,程序以试错方式尝试数千甚至数百万次随机动作,以找到最佳流程。强化学习已帮助为 Netflix 用户生成推荐,创建了在工厂中训练机械臂的方法,甚至在游戏中击败了人类。但这可能需要大量时间和计算能力。使用强化学习来创建能够安全驾驶汽车或在围棋等复杂游戏中获胜的算法的尝试,涉及数百甚至数千台计算机并行工作,以集体运行数百年的模拟——只有资金最雄厚的政府和公司才能负担得起。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。
模仿学习可以通过模仿人类甚至其他人工智能算法处理任务的方式来提高学习过程的效率。而这项名为 MineRL(发音为“mineral”)竞赛的编码活动,鼓励参赛者使用这项技术来教人工智能玩游戏。
卡内基梅隆大学匹兹堡分校深度学习理论博士候选人、MineRL 竞赛组织团队负责人威廉·格斯 (William Guss) 表示,强化学习技术本身在这个竞赛中没有机会。“随机工作时,人工智能可能只会在竞赛的八百万步限制内成功砍伐一两棵树——而这只是制作铁镐以在游戏中挖掘钻石的先决条件之一。“探索真的非常非常困难,”格斯说。“模仿学习为你提供了一个关于你的环境的良好先验知识。”
格斯和他的同事们希望,由卡内基梅隆大学和微软等机构赞助的这项竞赛,能够通过激励程序员突破模仿学习的极限,从而产生超越定位《我的世界》宝石的影响。此类研究最终可能有助于训练人工智能,使其能够在各种情况下更好地与人类互动,并驾驭充满不确定性和复杂性的环境。“模仿学习是学习和智力发展的核心,”谷歌 DeepMind 伦敦研究科学家、MineRL 竞赛顾问委员会成员奥里奥尔·维尼尔斯 (Oriol Vinyals) 说。“它使我们能够快速学习一项任务,而无需从头开始找出进化找到的解决方案。”
以示例进行游戏
竞赛背后的团队表示,《我的世界》特别适合作为虚拟训练场。游戏的玩家展示了许多智能行为。在其流行的生存模式中,他们必须抵御怪物,觅食或耕种食物,并不断收集材料来建造建筑物和制作工具。新玩家必须学习《我的世界》版本的物理学,并发现将材料转化为资源或工具的配方。这款游戏因其释放玩家的创造力而闻名,玩家构建了各种事物的积木虚拟版本:埃菲尔铁塔、迪士尼乐园、《星球大战》中的死星战壕,甚至游戏中可以运行的计算机。
为了创建竞赛的训练数据,MineRL 组织者建立了一个公共《我的世界》服务器,并招募人们完成旨在演示特定任务的挑战,例如制作各种工具。他们最终捕获了 6000 万个可以在给定情况下采取的行动示例,以及大约 1000 小时的记录行为,提供给各团队。这些记录代表了首批也是最大的专门用于模仿学习研究的数据集之一。
加州大学伯克利分校计算机科学博士候选人、专注于人工智能的《Alignment Newsletter》的运营者罗欣·沙阿 (Rohin Shah) 表示,竞赛的重点是使用模仿来“引导”学习,这样人工智能就不需要花费那么多时间探索环境来从第一原理中找出什么是可能的,而是使用人类积累的知识。“据我所知,还没有另一项人工智能竞赛专门关注这个问题。”
在云计算和充足的数据供应的推动下,强化学习通常产生了大部分新的人工智能研究论文。但对模仿学习的兴趣正在增加,部分原因是研究人员正在努力解决试错方法的局限性。微软剑桥研究院游戏智能组首席研究员、MineRL 竞赛组织委员会成员卡佳·霍夫曼 (Katja Hofmann) 表示,以这种方式学习需要训练数据,这些数据可以展示不同环境交互的所有可能性和后果(微软在 2014 年以 25 亿美元收购了《我的世界》的开发者)。在复杂的现实世界环境中,这种数据可能难以获得,因为在这些环境中,玩弄坏决定的所有后果并非易事或安全。
以自动驾驶汽车为例。主要通过强化学习来训练它们将需要数千甚至数百万次的试验,才能找出安全驾驶和鲁莽驾驶之间的区别。但驾驶模拟无法包括可能导致现实世界中发生碰撞的所有可能条件。并且允许自动驾驶汽车通过在公共道路上反复碰撞来学习将是极其危险的。霍夫曼说,除了安全问题外,强化学习可能非常昂贵,需要价值数百万美元的计算能力。
与纯粹的强化学习从头开始的方法不同,模仿学习走了捷径,通过从示例中学习来获得先发优势。它已经与强化学习一起找到了用武之地。过去几年中最受赞誉的人工智能演示,包括 AlphaGo 算法在 2017 年击败人类围棋大师,都结合了这两种方法,首先使用模仿学习生成的基石模型。
模仿学习也有局限性。其中之一是它偏向于学习示例中已经演示过的解决方案。因此,以这种方式训练的人工智能可能不够灵活。“如果人工智能系统犯了一个错误,或者在某种程度上偏离了人类的做法,那么它最终会进入与演示中看到的情况不同的新环境,”沙阿说。“由于它没有见过这种情况,它会变得更加困惑,并犯更多错误,这些错误会进一步复合,导致非常糟糕的失败。”
尽管如此,许多研究人员仍然看到了这项技术的巨大潜力,尤其是在训练人工智能追求特定目标方面。“与强化学习相比,模仿学习的好处在于你可以获得成功的演示,”微软雷德蒙研究院自适应系统与交互组首席研究员德巴迪普塔·戴 (Debadeepta Dey) 说。“这确实有助于加快学习速度。”
为了获得钻石宝藏,MineRL 竞赛中人工智能控制的玩家或代理必须掌握一个多步骤的过程。首先,他们收集木材和铁来制作镐。然后他们建造火把来照亮道路。他们还可以携带一桶水来扑灭地下熔岩流。一旦所有这些都准备好,人工智能就可以开始探索矿井和洞穴,以及挖掘地下通道来寻找钻石矿石。
参赛者必须使用一套硬件来训练他们的人工智能,这套硬件最多包含六个中央处理内核和一个 NVIDIA 显卡——大多数研究实验室可以通过云计算服务负担得起。超过 900 个团队报名参加了竞赛的第一轮,最终有 39 个团队提交了人工智能代理。在训练人工智能发现钻石方面取得最大进展的十个小组已晋级第二轮也是最后一轮。其中一些人工智能已经设法获得了铁矿石并建造了熔炉,这是制作铁镐的另外两个先决条件。但格斯预计没有任何团队的代理会找到钻石——至少在第一次竞赛中不会。
尽管竞赛的目标是特定的,但它可以促进更广泛的《我的世界》人工智能研究。“我对《我的世界》特别感兴趣,因为它是一个人类实际上有多种目标的环境的例子——人类在《我的世界》中没有‘一件事情’要做,”沙阿说。“这使其成为尝试学习人类目标的技术的更合适的试验平台。”
即使游戏的图形和规则不能完美地反映物理现实,在《我的世界》中开发更有效的人工智能训练方法也可以转化为在机器人技术等领域更快的人工智能学习。德国达姆施塔特工业大学智能自主系统实验室研究小组负责人乔尼·帕贾里宁 (Joni Pajarinen) 表示,MineRL“可能会产生对现实世界领域产生影响的结果,例如复杂物体的机器人组装或任何其他需要学习复杂行为的领域”。
一旦竞赛的最后一轮于 11 月 25 日结束,格斯和其他组织者将审查提交的作品,以确定哪个人工智能被证明是最先进的钻石猎手。最终结果将于 12 月 6 日在加拿大温哥华举行的 NeurIPS(神经信息处理系统会议)之前公布,所有十个决赛入围团队都应邀展示他们的结果。
如果 MineRL 竞赛流行起来并成为一种经常性的传统,它可能会为跟踪模仿学习的进展提供公共基准。“MineRL 似乎很可能会鼓励更多关于模仿学习的研究,”沙阿说。“模仿学习是否对现实世界的应用具有重要意义还有待观察,但我对此持乐观态度。”
本文经许可转载,并于2019 年 11 月 26 日首次发表。