2017年3月28日

毫无意义行为的意义

我们在儿童身上看到的“内在动机”如何帮助我们开发更好的机器人

本文发表于《大众科学》的前博客网络，反映了作者的观点，不一定反映《大众科学》的观点

当我那些睡眠不足的朋友试图让他们的宝宝吃东西时，我会发笑。即使孩子可能饿了，但他似乎从未使用食物来实现其预期目的。他宁愿捏碎香蕉片，弄碎麦圈，然后把它们都扔到地板上（狗立刻就学会了这种行为）。

这个小怪物在其他情况下也表现出看似毫无意义的行为：圣诞节早上揉搓包装纸而不是玩洋娃娃，在洗澡时把水（希望是水）泼到爸爸脸上，灾难性地敲击智能手机屏幕等等。发展心理学家通常将这类行为称为“内在动机”，因为它似乎是为了其自身而执行，而不是作为实现某种独立（可能是奖励性的）结果（如吃甜食）的方式。

然而，内在动机行为可能并非“毫无意义”，而是可能帮助孩子了解周围环境。当他玩香蕉片或饼干时，他会了解它们的物理特性。当他确实想吃食物（或扔给狗）时，他会利用这些知识：对于松脆的饼干，他会用力握住并用力咬，但对于软绵绵的香蕉片，他可能会用更轻柔的触摸。从研究内在动机中获得的见解对于理解人类发展具有重要的意义。然而，在过去的几十年里，它们也为另一种发展做出了贡献：构建更好的人工智能体，包括未来的机器人。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。

科学家可以告诉人工智能体将某些事物视为奖励——例如找到特定物体或导航到特定位置——并对其进行编程以学习实现它。这是外在动机，其中获取诸如食物或金钱之类的东西可以满足某些已知的需求。然而，内在动机有点棘手，更精确的描述将有助于我们理解它如何有用。

一种可能性是，一个不可预测的“令人惊讶的”感官事件使我们有动力重复事件发生之前我们所做的事情。然而，如果情况是这样，我们就会“卡住”重复有时会随机发生的事件，但实际上什么都不做的行为。相反，计算机科学家于尔根·施密德胡伯在 1990 年代初期，在最早对人工智能系统中的内在动机进行计算解释之一中描述了一个更有用的公式：重复随后预测后续事件的能力得到提高的行为。

作为一个简单的例子，如果您不知道智能手机上的按钮有什么作用，并且按下它会打开 LED 灯，那么每次您按下它，您预测接下来会发生什么（LED 灯会亮起）的能力都会提高。因此，您有动力按下按钮，至少在一段时间内是这样。但是，在某个时候，您预测按下按钮的结果的能力无法再提高，因此动机就会消退。

在这个公式中，我们有动力去学习预测以前无法预测的事件的行为，而不是浪费时间试图预测已经很好预测或无法预测的事件。（在Oudeyer 和 Kaplan 2007 以及 Santucci 等人 2013 中描述了人工智能系统中内在动机的其他公式，其中大多数公式也涉及预测的某些方面。）

如何使用这种或其他类型的内在动机来构建更好的机器人和通用人工智能体？就像孩子（或任何动物）一样，没有预先编程绝对知识的机器人必须能够学习事物，例如看到下雪如何预测另一个观察结果（道路会变得湿滑）。检测观察序列中的规律性可以训练内部预测模型——机器人“大脑”的一部分，专门用于预测接下来会发生什么——以帮助它更好地理解周围世界是如何运作的。

有了良好的内部预测模型，它就可以做出好的决策，例如在下雪时缓慢行驶（或根本不行驶），而无需真正滑倒在湿滑的道路上。在模拟系统的实验中，施密德胡伯赋予了一个人工智能学习体如前所述的内在动机：它有动力观察可靠地预测其他事件的事件，并在很好地学习预测后继续观察其他事件。与没有内在动机的人工智能体相比，它能够更好更快地学习模拟世界的工作方式，这种知识对于以后必须决定做什么很有用。

心理学家罗伯特·W·怀特在 1950 年代后期描述了内在动机的另一种潜在用途：通过发展影响周围环境的行为来获得能力。例如，蹒跚学步的孩子可能在挥舞玩具时碰巧按下了汽车车门上的按钮，并意外地听到车门锁定或解锁时发出的响亮的咔哒声。

意外的咔哒声促使她重复她的动作，她最终多次按下按钮，最终她了解到咔哒声是在按下按钮之后发出的，之后她转向其他事情。此外，通过反复按下按钮，她学会了熟练地按下按钮的行为技能（而不是总是挥舞她的玩具）。她增加了在汽车中按下按钮发出咔哒声的技能，即使她不立即知道这有什么用。换句话说，她提高了与环境互动的能力。

怀特的方法影响了计算机科学家安德鲁·巴托及其同事在 2000 年代初期所做的工作，他们使用该方法研究了在模拟环境中行动的人工智能体的技能发展，其中某些感官事件非常突出（例如汽车中的咔哒声）。当具有内在动机的人工智能学习体随机行动并偶然获得突出的感官事件时，它会重复并改进之前的行为，以可靠地熟练地实现该事件，并将该行为存储为以后可以调用的单一技能。

随着该事件变得可预测，实现它的动机逐渐消失，智能体转向其他情况，整个过程针对其他突出事件重复进行。巴托及其同事表明，首先通过这种内在动机过程获得一系列技能的学习智能体，比从未发展出此类技能的智能体更快地学会完成该环境中的新任务。这个过程类似于孩子学习按下汽车车门按钮发出咔哒声的技能，并且当爸爸不小心将孩子和钥匙锁在车里时，该技能会派上用场。

内在动机也已在现实世界中行动的真实机器人中进行了研究。即使是具有预编程行为的机器人也必须学习在哪些感官条件下这些行为实际上可能会完成某些事情，例如仅在看到按钮时才尝试按下按钮，或仅在手感觉到有东西时才合拢手指以抓住东西。

这些感官条件类似于心理学家詹姆斯·吉布森在 1970 年代后期描述的“可供性”。大约十年前，机器人专家斯蒂芬·哈特和罗德里克·格鲁彭为一个机器人配备了预先指定的行为，但仅对特定行为可能完成某些事情的感官条件进行了粗略估计，模仿了如果将机器人放置在全新的环境中可能预期的条件类型。内在动机是通过在行为成功执行时传递信号来实现的，并且该信号通过对该行为预期完成某些事情的感官条件的估计（估计的可供性）与行为成功执行的实际感官条件之间的差异进行缩放。

缩放后的信号是机器人在相似感官条件下重复该行为的内在动机。通过重复执行，机器人学习了其每种行为的准确可供性。凭借准确的可供性，机器人可以有效地与环境互动：如果它感觉不到手中有东西，它就不会尝试合拢手指抓住东西，如果它看不到按钮，它就不会尝试按下按钮。

机器人专家阿德里安·巴兰斯和皮埃尔-伊夫·乌德耶使用了内在动机的不同公式来控制在桌面上二维工作的多连杆机器人手臂（如 2D 章鱼触手）。与婴儿拍打手臂和翻身类似，幼稚的机器人必须通过移动来学习如何控制自己的身体。在他们的工作中，机器人手臂生成一个要到达的目标位置，尝试到达该位置，并调整其控制机制以使后续到达更加准确。

当到达特定目标的能力比机器人上次尝试到达该目标时有所提高时，会产生更高的内在动机信号。因此，机器人更有可能尝试到达其能力有所提高的目标位置——从而提高其运动控制能力——而不是其能力没有提高的目标位置，这可能是因为该目标位置目前太难到达，或者是因为机器人已经可以毫无问题地到达它。因此，机器人通过集中精力学习逐渐变得更难的动作，有效地学习控制自己的身体，而不会浪费时间尝试学习对于它在任何时候来说都太难或太容易的动作。

在所有四个示例中，内在动机信号暂时导致人工智能体重复行为，原因与完成特定任务无关。相反，生成的行为会产生学习有用的东西的经验：使能够准确预测的内部模型、影响环境的技能、指示何时可以执行行为的可供性，或有效地学习如何控制自己的身体。

当这些已经学习到某种可接受的程度时，内在动机信号就会消退，学习智能体转向其他事情，但它们使智能体能够更好地与环境互动，从而在未来更好地完成任务。在浴缸里玩塑料杯中水的男孩培养了知识和技能，这些知识和技能在他最终开始在麦片上倒牛奶时会很有用。在客厅里搭建积木塔的女孩培养了知识和技能，这些知识和技能在她以后堆叠箱子搬到车库时会很有用。

该研究表明，被认为构成“毫无意义”的玩耍行为基础的内在动机如何集中行为以了解世界以及如何更好地与之互动。重要的是，学习是自我导向的，并且是通过实际经验而不是通过外部教师的指导来完成的，这在它可以传达的内容方面存在局限性（就像关于如何投球的讲座与实际尝试投球相比显得苍白无力）。

本专栏重点介绍了人工智能体预测事件和执行行为的相对客观领域，但发展心理学的研究表明，类似的内在动机过程以及从实际经验中进行的自我导向学习在认知和社会发展中的重要性。通过尝试足够精确地描述和理解这些过程，以使其控制人工智能体，我们可以获得见解，从而更好地理解人类在许多层面上的发展。