为公路旅行打包汽车似乎是一项非常简单的任务,但对于机器人来说,学习这项任务从来都不容易——直到一项新的研究将机器人训练转向了人工智能。这项研究的意义远不止于一个打包良好的后备箱,最终可能会影响到从我们如何管理家庭到如何殖民火星等诸多方面。
麻省理工学院和斯坦福大学的一个研究团队使用一种称为“扩散模型”的生成式人工智能,训练机器人将物品装入有限空间,同时遵守一系列约束条件:例如人类的考量,确保重物不会压坏轻物,某些物品之间要有一定的空间,机器人的手臂不会意外撞击容器并损坏它,等等。研究人员表示,扩散模型帮助机器人更快地完成这项任务,比过去使用的训练方法更快。
麻省理工学院博士生朱天 “Skye” Yang 是详细介绍这项研究的论文的第一作者,该论文最近在预印本服务器 arXiv.org 上发布,等待同行评审。Yang 说:“我们希望有一种基于学习的方法来快速解决约束问题,因为与传统方法相比,基于学习的[人工智能]将解决得更快。”“基于学习”的方法是指允许人工智能程序通过识别训练数据和期望输出之间的模式来自主学习。这与之前测试过的“基于规则”的程序不同,后者更受限制,因为它们必须在严格编码的规则集内运行。“扩散模型是一种非常好的方法,可以对问题的不同解决方案进行抽样,并共同满足所有约束条件,” Yang 说。
支持科学新闻事业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻事业 订阅。通过购买订阅,您正在帮助确保未来能够继续报道关于塑造我们当今世界的发现和想法的具有影响力的故事。
佐治亚理工学院人工智能机器人学助理教授 Animesh Garg 说:“自主打包‘一直是一个具有挑战性的问题’,他没有参与这项新研究,但在类似的研究领域工作。“如果没有机器学习,解决方案将涉及计算密集型的在线 3D 装箱”——一种基于规则的技术,根据程序的编码限制,“甚至可能是无法解决的”。
以前,为了让机器人在上述约束条件下解决打包问题,它必须按顺序工作。它会开发可能的打包配置,并一次针对一个约束条件进行测试,然后检查与其他约束条件是否存在冲突。这种试错法被证明太慢了,尤其是在需要打包的物品更多时——因此需要测试的动作也更多。在新研究中,另一方面,扩散模型允许机器人同时探索一系列机器学习模型,每个模型代表一个单独的约束条件。这些模型的总和使机器人能够更全面地了解问题,使其能够几乎瞬间同时考虑所有约束条件。因此,与以前的技术相比,更快地找到了更多成功的打包配置。该研究的扩散方法还被证明能够解决应用于更多物品的新约束组合——超出模型在训练期间所经历的范围。
Garg 说:“使用机器人打包非常困难,但具有变革性。” “这项工作使机器人能够开始‘即时思考’,并快速实现非常好,即使不是最佳的解决方案。”
Yang 说:“这是一种优化问题。” “使用基于学习的方法,我们很高兴看到,如果我们在小问题上进行训练,它可以推广到解决具有更多对象或更大约束集的问题。”
研究团队还研究了其学习算法如何与大多数人关于如何打包的直觉相符或相悖。Yang 说,人类“有首先将东西打包到边缘的启发式方法”。“如果你有很多东西,你总是把它们打包到左下角。或者,如果你要堆叠东西,你会均匀地逐层放置,而不是一直堆到一侧,然后再堆另一侧。” 虽然从人类的角度来看,这些启发式方法似乎是合乎逻辑的,但没有我们先入为主观念的基于学习的机器人可以自由地发现新颖的解决方案。
但是,通过提前分析数据并在开始打包之前记住可能的最终解决方案,您可以消除试错的需要。要像该研究的人工智能驱动机器人之一那样,将多个物体打包到有限的空间中——想想汽车后备箱或行李箱——有三个步骤。首先,提前思考您对打包的了解以及必须满足哪些约束条件。其次,在开始装载物体之前,想象解决方案。最后,朝着理想的解决方案打包,不一定非要遵循您的直觉。
Yang 说:“可能有很多解决方案”可能不符合直觉。“而且你可以随着过程的推进而改变计划。”
机器人获得比人类同行更快、更高效的打包能力,其应用远远超出公路旅行。Yang 解释说:“我希望厨房里有机器人帮助做家务。” “我刚去一家工业机器人公司做了一次演讲,他们对使用这种算法为他们的客户打包非常感兴趣。” 例如,她建议这项技术可以帮助航运公司将不同的物品装入一个集装箱,或者帮助制药公司批量向医院运送各种药物。这种可能性甚至超越了地球。“如果你要去火星,你可以让机器人决定如何最好地打包资源,” Yang 建议道。
Garg 同意,其意义可能非常深远。他说:“机器人打包和放置将使一大批开放世界机器人技能成为可能。” 然而,还需要更多的研究。“这项工作取得了非常令人印象深刻的成果,但距离认为问题‘已解决’还有几步之遥,” Garg 说。“我希望这项工作将激励社区在这个领域取得快速进展。”
现在,麻省理工学院和斯坦福大学的团队正在努力使他们的机器人在做出“离散决策”方面更具能力。这不仅包括教导机器人在约束条件下打包,还包括训练它在不断变化的变量中这样做——例如,当任务是在房间内同时移动时打包物品。
因此,下次您打包时,请考虑像机器人一样进行打包以优化结果。不久之后,您可能只需将一切完全交给机器。