2012年12月13日

什么是操作性条件反射？（以及它如何解释狗狗开车？）

本文发表于《大众科学》的前博客网络，仅反映作者的观点，不一定反映《大众科学》的观点

对我们许多人来说，驾驶汽车似乎是与生俱来的技能，但实际上这是一个相当复杂的过程。最简化的版本是，首先你坐在驾驶座上，然后启动引擎，然后换挡，然后你必须同时操控方向盘，同时保持脚踩油门。这还不包括调整后视镜、确认你不会撞到其他人或汽车等等。

从某种意义上说，新西兰的三只狗狗学会了以相当初步的方式驾驶汽车，这令人难以置信。它们坐在驾驶座上，换挡，操作方向盘，并踩油门。然而，真正值得称赞的不是狗狗，而是人类训练员，因为他们令人印象深刻的耐心和决心。

关于支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道：订阅。通过购买订阅，您将有助于确保关于塑造我们今天世界的发现和想法的具有影响力的故事的未来。

训练人类最好的朋友操作汽车的训练，与世界各地动物园的鸟类表演，或您可能在海洋世界看到的dolphin、虎鲸、海豹或海狮表演背后的训练没有什么不同。这与科学家用来探索大鼠、小鼠和其他实验室动物的情感和认知生活的训练类型相同。归根结底，这一切都归结为一种学习形式，这种学习形式最初由爱德华·L·桑代克在 1900 年代初提出，后来由B.F.斯金纳扩展和普及，并教授给每一位心理学导论学生：操作性条件反射。

什么是操作性条件反射？

虽然经典条件反射是一种将外部刺激与反射性的、非自愿的反应联系起来的学习形式，但操作性条件反射涉及自愿行为，并通过随之而来的结果来维持。在一项实验中，斯金纳将鸽子单独放入实验箱（有时称为“斯金纳箱”）中，这些箱子被设计为按系统的时间间隔提供食物奖励。他发现，通过在鸟类表现出期望的行为后奖励它，他可以激励鸟类增加该特定行为的频率。

操作性条件反射中使用的工具被称为正强化和负强化以及正惩罚和负惩罚。

那么，正强化和负惩罚之间有什么区别？负强化？正惩罚？救命啊！

不止一位心理学导论学生被正负之间、强化和惩罚之间的差异弄糊涂了。以下是你需要了解的三点（和半点）：

1. 强化用于维持或增加期望的行为，而惩罚用于减少或消除行为。（斯金纳认为，在改变行为方面，强化比惩罚更有效。）

2. 正涉及在情境中引入或添加刺激。那么，负意味着刺激被撤回或移除。

3. 如果刺激是令人愉悦或奖励性的，你的心理学教科书可能会将它们称为“喜好性”刺激。如果刺激是不奖励或不需要的，它们可能被称为“厌恶性”刺激。

3a. 正强化和负惩罚涉及喜好性刺激。正惩罚和负强化涉及厌恶性刺激。

许多学生认为刺激本身是正面的或负面的，这就是事情变得混乱的地方。跟我说：正面和负面指的是刺激的添加或移除，而不是刺激本身。

正强化可能包括用糖果奖励孩子，以鼓励他与兄弟姐妹好好玩耍。糖果是一种喜好性刺激，用于增加或维持期望的行为。

如果孩子行为不端，他们可能会被剥夺看电视的权利。这是负惩罚，因为你移除了喜好性刺激（电视），以消除不想要的行为。

如果孩子继续行为不端，父母可能会对他或她大喊大叫；这将构成正惩罚。它涉及施加厌恶性刺激（大喊大叫），以消除不想要的行为。

最后，沮丧的父母可能会与他们行为不端的孩子协商，提出减少他或她本周必须完成的家务，以换取期望的行为。这是一种负强化形式，因为厌恶性刺激（家务）被移除，目的是增加良好行为。

但是等等，还有更多

在训练动物（或有时是人类）时，强化是根据预定的时间表进行的。如果在设定次数的反应后提供刺激，则被认为是固定比率时间表。例如，鸽子可能在每次啄按钮十次后获得食物奖励。鸽子会了解到需要按十次按钮才能获得奖励。

如果获得刺激所需的反应次数是变化的，那么你正在使用可变比率时间表。这方面最好的例子是老虎机，它在一段时间内提供奖励的概率是固定的，但两次奖励之间拉杆的次数是可变的。难怪可变比率强化时间表是快速建立和维持期望行为的最有效方法。

如果在固定的时间量后给予刺激，而与反应次数无关，那么你就得到了固定间隔时间表。无论鸽子啄按钮多少次，它每十分钟只获得一次奖励。这是最无效的强化时间表。

最后，如果在可变的时间量后给予刺激，那么你就得到了可变间隔时间表。刺激可能平均每周施加一次，这意味着有时它发生的频率高于每周一次，有时则低于每周一次。随堂测验是可变间隔强化时间表最著名的例子，因为它们发生的精确时间是不可预测的。在这种情况下，期望的反应是学习。

总的来说，比率时间表比间隔时间表更有效地改变行为，而可变时间表比固定时间表更有效。

将所有内容整合在一起

斯金纳从早期的鸽子实验中吸取了教训，并继续开发方法，通过将更复杂的行为分解为若干部分来引发这些行为，然后可以对每个部分进行单独的条件反射。这被称为连锁，是训练狗狗驾驶汽车的基础。与驾驶狗狗一起工作的行为学家首先训练它们操作杠杆，然后使用方向盘调整移动小车的方向，然后按下或松开踏板来加速或减速小车。随着每只狗狗掌握每个步骤，都会添加一个额外的部分，直到它们学会整个目标行为。与食物是鸽子最好的奖励不同，驯化过程意味着狗狗可以通过口头表扬来奖励（尽管食物肯定有帮助）。

最初是如何引发如此不自然的行为的？通过结合强化和惩罚，训练员可以通过奖励逐渐接近的近似行为来塑造期望的行为。斯金纳恰如其分地将这个过程称为塑造。在1953年，斯金纳这样描述它（重点已添加）：

我们首先在鸟类从笼子的任何部分稍微转向该点时给它食物。这增加了这种行为的频率。然后，我们停止强化，直到做出稍微朝向该点的移动。这再次改变了行为的总体分布，而没有产生新的单元。我们继续通过强化越来越接近该点的位置，然后仅在头部稍微向前移动时进行强化，最后仅在喙实际接触到该点时才进行强化。……最终形式的反应的原始概率非常低；在某些情况下，它甚至可能为零。通过这种方式，我们可以构建复杂的、否则永远不会出现在生物体行为库中的操作。通过强化一系列连续的近似行为，我们在短时间内将罕见的反应提高到非常高的概率。……从盒子中的任何一点转向该点、走向它、抬起头并击中该点的整个动作可能看起来是一个功能上连贯的行为单元；但它是由未分化的行为通过持续的差异强化过程构建而成的，就像雕塑家从一块粘土中塑造他的雕像一样。

这也是教狗狗跳莎莎舞的方式

或者这只小鼠被训练来导航障碍赛道的方式

或者这只鸡

或者这只山羊

鸡和山羊视频中出现的，以及许多人用于训练狗狗的响片训练，结合了经典条件反射和操作性条件反射。经典条件反射用于使咔哒声成为条件刺激，然后将其用于操作性条件反射中的正强化。

野外的操作性条件反射

已经提到了几个操作性条件反射的真实世界例子：奖励孩子的良好行为或惩罚孩子的坏行为、老虎机和随堂测验。在动物园和其他动物设施中，饲养员使用操作性条件反射来训练动物在不同围栏之间移动，展示身体部位以进行检查，或确保兽医检查安全进行。

操作性条件反射也可以解释为什么一些动物园动物会表现出刻板行为或重复性行为。为了理解这是如何运作的，让我们回到斯金纳的鸽子。在一项实验中，斯金纳将鸟类放入它们的箱子中，并将食物奖励设置为按系统的时间间隔提供，而与鸟类的行为无关。鸽子继续发展出斯金纳所说的“迷信行为”，这是它们的公开行为与食物奖励的呈现之间偶然并置的结果。一只鸽子在奖励呈现之前在笼子里逆时针转动，这导致鸽子学会了逆时针转动与食物之间的联系。这只鸽子花时间转来转去等待奖励。另一只鸽子将头伸进笼子的一个角落以引出食物。两只鸟左右摇晃头部，另一只鸟被条件反射地啄向地面——几乎但没有完全接触到地面。

圈养动物的刻板行为可能源于多种来源，但偶然的操作性条件反射可能解释了其中很大一部分。事实上，动物园动物最常见的刻板行为形式是踱步，如果与刻板的游泳模式相结合，其次是各种形式的摇摆或摇头晃脑。幸运的是，操作性条件反射的原理也可以用于补救这些问题。

你能想到其他操作性条件反射的真实世界例子吗？请在评论中留下它们！

斯金纳 B.F. (1948). 鸽子中的“迷信”。， 实验心理学杂志，38 (2) 168-172. DOI: 10.1037/h0055873

Shyne A. (2006). 富集对动物园哺乳动物刻板行为影响的荟萃分析综述， 动物园生物学，25 (4) 317-337. DOI: 10.1002/zoo.20091