人工智能在策略游戏星际争霸II中击败顶尖人类玩家

DeepMind的AlphaStar在快节奏科幻视频游戏中击败了除最顶尖人类之外的所有玩家

星际争霸II玩家在未来战争区域中互相战斗。

今年夏天,科幻视频游戏星际争霸II的玩家们面对了一位不寻常的对手。一个名为AlphaStar的人工智能(AI)——由谷歌的AI公司DeepMind构建——在游戏的欧洲服务器上被释放后,获得了大师级评级,跻身该地区90,000名玩家的前0.15%。

这项结果于10月30日发表在《自然》杂志上,表明人工智能可以在星际争霸II的最高级别进行竞争,星际争霸II是一款非常受欢迎的在线策略游戏,玩家实时扮演三个阵营之一——人类 Terran 部队或外星人 Protoss 和 Zerg——在未来战争区域中互相战斗。

DeepMind之前构建了在国际象棋和围棋方面领先世界的人工智能,星际争霸II是其追求通用人工智能(一种能够学习或理解人类可以完成的任何任务的机器)的下一个基准,因为这款游戏具有战略复杂性和快节奏。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。


俄勒冈州立大学科瓦利斯分校的人工智能研究员Jon Dodge说:“我没想到人工智能会这么快在这个领域基本上达到超人类水平,也许还需要几年。”

星际争霸II中,经验丰富的玩家通过管理资源、执行复杂的战斗动作并最终在策略上胜过对手来执行多任务。专业人士以极快的速度玩游戏,每分钟执行超过 300 次操作。DeepMind人工智能背后的机器学习技术依赖于人工神经网络,神经网络学习从大型数据集中识别模式,而不是被赋予特定的指令。

DeepMind在2018年12月首次在实验室测试游戏中将AlphaStar与高级玩家对战。人工智能与两位专业人类玩家进行了比赛并击败了他们。但批评人士断言这些演示赛是不公平的,因为AlphaStar拥有超人的速度和精确度。

在团队将AlphaStar从实验室放出并放到欧洲星际争霸II服务器上之前,他们限制了人工智能的反应速度,使其成为更公平的竞争。7月,玩家收到通知,他们可以选择加入,有机会与人工智能匹配。为了保持试验的盲法性,DeepMind掩盖了AlphaStar的身份。

AlphaStar项目的联合负责人David Silver说:“我们希望这像一个盲法实验。” “我们真的想在这些条件下进行比赛,真正了解‘这群人类玩家的表现如何对抗我们?’”

AlphaStar的训练得到了回报:它击溃了低级别对手,最终在与高级别玩家的90场比赛中赢得了61场。

具有挑战性的复杂性

星际争霸II的复杂性对人工智能提出了巨大的挑战。与国际象棋不同,星际争霸II有数百个“棋子”——各阵营军队中的士兵——它们同时实时移动,而不是以有序的、回合制的方式移动。国际象棋棋子只有有限数量的合法移动方式,而AlphaStar在任何时刻都有1026种动作可供选择。而且星际争霸II与国际象棋不同,它是一款信息不完善的游戏——玩家通常看不到他们的对手在做什么。这使得它变得不可预测。

近十年来,研究人员一直在年度竞赛中让星际争霸星际争霸II人工智能相互对抗。然而,与AlphaStar不同,这些“机器人”大多依赖于硬编码规则,而不是可以自我训练的神经网络。Oriol Vinyals现在是AlphaStar项目的联合负责人,他曾在加州大学伯克利分校的团队中,该团队赢得了2010年的首次比赛。

Vinyals说:“那时,我开始想也许我们应该只做[机器]学习,但那时还为时过早。”

2016年,Vinyals加入DeepMind,开始研究可以自学如何玩星际争霸II的人工智能。AlphaStar首先通过学习模仿近一百万个人类游戏来开始其训练。为了进一步提高AlphaStar的水平,DeepMind创建了一个联赛,人工智能的各个版本相互竞争。伦敦帝国学院的人工智能研究员Kai Arulkumaran说,这种方法对于像星际争霸II这样没有最佳策略的游戏以及人工智能的许多其他现实应用都是有意义的。

有洞察力的玩家

DeepMind还对AlphaStar施加了限制,以确保人工智能真正是通过智力而非仅仅是通过点击速度来击败其人类对手。因为游戏奖励快速点击的能力,所以点击速度超人的计算机可能会在没有更智能或做出更好决策的情况下击败人类。因此,DeepMind将AlphaStar的反应速度限制在经验丰富的人类玩家的水平。

在这些条件下,经过27天的训练,AlphaStar跻身欧洲服务器所有玩家的前0.5%。

然而,在50场比赛后,DeepMind遇到了障碍。一些玩家注意到,Battle.net游戏平台上的三个用户帐户在相似的时间段内玩了完全相同数量的星际争霸II游戏——AlphaStar秘密使用的三个帐户。在观看这些比赛的重播时,玩家注意到帐户所有者正在执行对于人类来说极其困难甚至不可能完成的动作。作为回应,DeepMind开始使用许多技巧来保持试验的盲法性并阻止玩家发现AlphaStar,例如定期切换帐户。

最终版本的AlphaStar依赖于累计44天的训练,并经常遇到职业玩家。人工智能未能像在国际象棋和围棋中那样击败世界最佳玩家,但DeepMind认为其基准已达到,并表示已完成星际争霸II的挑战。

其他人工智能科学家尚未确信AlphaStar可以声称完全胜利。加拿大纽芬兰纪念大学圣约翰分校的人工智能研究员Dave Churchill认为,AlphaStar仍然存在许多弱点,例如容易受到它以前没有见过的策略的攻击。

他说:“AlphaStar非常令人印象深刻,绝对是迄今为止任何星际争霸游戏中最强大的人工智能系统。” “话虽如此,星际争霸远未被‘解决’,而AlphaStar甚至还远未达到世界冠军水平。”

本文经许可转载,并于2019年10月30日首次发表。

© . All rights reserved.