编者注(2023年2月22日):本文最初于2022年2月11日发布。我们重新发布此文是因为《Gran Turismo》玩家现在可以在最新版本的游戏中与人工智能 Gran Turismo Sophy 竞速。
为了沿着最快的“赛车线”飞速过弯而不失控,赛车手必须以精确的时序进行刹车、转向和加速。这个过程取决于摩擦力的极限,而摩擦力又受已知的物理定律支配——这意味着自动驾驶汽车可以学会以最快的速度完成一圈(正如一些汽车已经做到的那样)。但是,当自动驾驶汽车必须与其他汽车共享空间时,问题就变得棘手得多。现在,科学家们通过训练一个人工智能程序,使其在超逼真的赛车游戏《Gran Turismo Sport》中超越人类竞争对手,从而虚拟地解决了这一挑战。这些发现可能为自动驾驶汽车研究人员指出新的方向,以使这项技术在现实世界中发挥作用。
人工智能已经在某些视频游戏中征服了人类玩家,例如《星际争霸II》和《Dota 2》。但索尼人工智能美国公司主管兼这项新研究的合著者彼得·伍尔曼表示,《Gran Turismo》与其他游戏有显著的不同,该研究发表在《自然》杂志上。他解释说:“在大多数游戏中,环境定义了规则,并保护用户免受彼此的侵害。”“但在赛车中,汽车彼此非常接近,并且有一种非常精细的礼仪感,必须由[人工智能]代理学习和部署。为了获胜,他们必须尊重对手,但他们也必须保持自己的驾驶路线,并确保他们不会轻易让路。”
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。
为了教会他们的程序要领,索尼人工智能研究人员使用了一种称为深度强化学习的技术。他们奖励人工智能某些行为,例如保持在赛道上、保持对车辆的控制以及尊重赛车礼仪。然后,他们让程序自由尝试不同的赛车方式,使其能够实现这些目标。索尼人工智能团队训练了多个不同版本的人工智能,称为 Gran Turismo Sophy(GT Sophy),每个版本都专门用于在特定赛道上驾驶特定类型的汽车。然后,研究人员将该程序与人类《Gran Turismo》冠军进行了对抗。在去年7月进行的第一项测试中,人类获得了最高的团队总分。在2021年10月的第二次比赛中,人工智能取得了突破。它在个人和团队赛中都击败了人类对手,并创造了最快圈速。
人类玩家似乎坦然接受了失败,有些人很享受与人工智能对抗的乐趣。“我们从车手那里听到的一些事情是,他们也从 Sophy 的操作中学到了新东西,”索尼人工智能战略与合作主管埃丽卡·加藤·马库斯说。“人工智能使用的线路非常棘手,我可能可以做一次。但这太难了——我永远不会在比赛中尝试,”艾米丽·琼斯说,她是2020年国际汽联认证的 Gran Turismo 锦标赛世界总决赛选手,后来与 GT Sophy 比赛。尽管琼斯说与人工智能竞争让她感到有点无力,但她形容这种体验令人印象深刻。

《Gran Turismo Sport》中的汽车。图片来源:索尼互动娱乐
琼斯说:“赛车就像许多运动一样,都是为了尽可能接近完美的圈速,但你永远无法真正达到那里。”“对于 Sophy 来说,看到一些完美的圈速真是太疯狂了。没有办法再快了。”
索尼团队目前正在进一步开发人工智能。“我们为每种汽车-赛道组合训练了一个代理,即 GT Sophy 的一个版本,”伍尔曼说。“我们正在研究的事情之一是:我们能否训练一个单一策略,使其可以在游戏中的任何赛道上的任何汽车上运行?”在商业方面,索尼人工智能还与《Gran Turismo》的开发者索尼互动娱乐子公司 Polyphony Digital 合作,以期将 GT Sophy 的一个版本纳入游戏的未来更新中。为此,研究人员需要调整人工智能的性能,使其可以成为一个具有挑战性的对手,但又不是无敌的——即使对于技能不如迄今为止测试过人工智能的冠军的玩家也是如此。
由于《Gran Turismo》提供了特定汽车和特定赛道的逼真近似——以及支配每辆车的独特物理参数——这项研究也可能在视频游戏之外有应用。“我认为有趣的一点,也是它与 Dota 游戏的不同之处,在于它处于一个基于物理的环境中,”人工智能研究公司 OpenAI 的软件工程师兼《OpenAI Five》项目的合著者布鲁克·陈说,《OpenAI Five》项目在《Dota 2》中击败了人类。“它不在现实世界中,但仍然能够模拟现实世界的特征,从而使我们能够训练人工智能更多地了解物理世界。”(陈没有参与 GT Sophy 的研究。)
斯坦福大学机械工程学教授 J. 克里斯蒂安·格德斯说:“《Gran Turismo》是一个非常好的模拟器——它在某些方面被游戏化了,但它确实忠实地代表了不同汽车和不同赛道会带来的许多差异,”他没有参与这项新研究。“在我看来,这是目前最接近于任何人发表论文说人工智能可以在赛车环境中与人类一较高下的事物。”
然而,并非所有人都完全同意。“在现实世界中,你必须处理诸如自行车手、行人、动物、从卡车上掉下来并落在路上的东西,你必须能够避开这些东西,恶劣的天气,车辆故障——诸如此类的东西,”史蒂文·斯拉多弗说,他是加州大学伯克利分校交通研究所加州先进交通技术合作伙伴计划(California PATH)的研究工程师,他也没有参与《自然》杂志的论文。“所有这些东西都不会在游戏世界中出现。”
但格德斯表示,GT Sophy 的成功仍然可能有用,因为它颠覆了关于自动驾驶汽车必须如何编程的某些假设。自动驾驶汽车可以根据物理定律或其人工智能训练做出决策。“如果你看看文献中已有的东西——以及在某种程度上,人们正在将其投入使用——运动规划器将倾向于基于物理的优化,而感知和预测部分将是人工智能,”格德斯说。然而,对于 GT Sophy 来说,人工智能的运动规划(例如,决定如何在性能的极限下接近弯道而不会导致碰撞)是基于公式的人工智能方面。“我认为自动驾驶汽车开发人员应该吸取的教训是:这里有一个数据点表明,我们的一些先入为主的观念——即这个问题的某些部分最好用物理学来完成——需要重新审视,”他说。“人工智能也可能在那里发挥作用。”
格德斯还认为,GT Sophy 的成就可能对人类和自动化系统互动的其他领域有所启示。他指出,在《Gran Turismo》中,人工智能必须平衡在赛道上实现最快路线的难题,以及与通常不可预测的人类平稳互动的难题。“如果我们确实有一个人工智能系统可以在这种环境中做出一些复杂的决策,那么这可能具有适用性——不仅仅是对于自动驾驶,”格德斯说,“也适用于诸如机器人辅助手术或在家中提供帮助的机器人的互动。如果你有一项任务需要人类和机器人一起移动某物,那么在某些方面,这比机器人试图自己完成它要棘手得多。”
本文的标题为“人工智能冠军”,已改编收录在2022年5月刊的《大众科学》杂志中。