三年前,一个心理学家团队用一个空间谜题挑战了180名学生。如果学生遇到困难,可以请求提示。但在测试之前,研究人员引入了一些微妙的干预措施,以观察这些措施是否会产生任何影响。
心理学家将志愿者分成三组,每组在做谜题之前都必须解开一些单词。一组是对照组,另一组坐在成堆的游戏币旁边,第三组看到的混乱句子中包含与金钱相关的词语。
这项研究于今年六月发表,是对一项广为引用的2006年实验的仔细重复。最初的研究发现,仅仅给学生们一些关于金钱的微妙暗示,就能让他们更努力地工作:在这种情况下,他们在请求帮助之前在谜题上花费了更长的时间。这项工作是众多实验室研究之一,这些研究认为,微小的潜意识暗示会对我们的行为产生巨大的影响。
支持科学新闻报道
如果您喜欢这篇文章,请考虑支持我们屡获殊荣的新闻报道,方式是 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。
这些研究被称为定义松散的术语“社会启动”或“行为启动”,包括一些报告,例如,用“金钱”启动的人更自私;用与教授相关的词语启动的人在测验中表现更好;甚至接触到字面上带有鱼腥味的东西的人更可能怀疑他人。
然而,最近由南佛罗里达大学坦帕分校的心理学家道格·罗勒领导的重复实验工作发现,用“金钱”启动的学生在谜题任务中的行为与对照组没有区别。这是数十起未能验证早期社会启动发现的案例之一。许多研究人员表示,他们现在认为社会启动与其说是一种影响人们无意识行为的方式,不如说是一个关于摇摇欲坠的统计方法如何欺骗科学家发表不可重复结果的教训。
这并非唯一一个因科学界的“可重复性危机”而受损的研究领域。失败的重复实验尝试使人们对从癌症生物学到经济学等领域的发现产生了怀疑。但是,社会启动领域有如此多的发现受到质疑,以至于有些人说该领域几乎完全被否定了。“我不认识一个可重复的发现。不是说没有,而是我无法说出一个,”弗吉尼亚大学夏洛茨维尔分校的心理学家布莱恩·诺塞克说,他领导了大型重复实验研究。“我已经从完全的信徒变成了完全的怀疑论者,”加拿大多伦多大学的心理学家迈克尔·因兹利希特补充道,他也是《心理科学》杂志的副编辑。
一些心理学家说,钟摆已经对社会启动摆动得太远了。其中包括该领域的资深人士,他们坚持认为他们的发现仍然有效。其他人则承认,早期的许多研究都值得怀疑,但他们表示,社会启动的核心思想仍然有价值。格拉斯哥大学的心理学家埃丝特·帕皮斯说,值得研究是否有可能使用微妙、低成本的干预措施来影响人们的行为——只要能够剔除那些更古怪和没有根据的主张。
帕皮斯说,研究人员配备了更严格的统计方法,发现社会启动效应确实存在,但似乎因人而异,并且比最初认为的要小。她和其他人认为,社会启动可能会作为一套更适度、但更严谨的发现而幸存下来。“我对这个领域相当乐观,”她说。
兴起与衰落
启动现象的根源可以追溯到20世纪70年代,当时心理学家表明,如果人们被相关的词语启动,他们就能更快地识别和处理这些词语。例如,在看到单词“医生”后,他们识别“护士”的速度比识别不相关的单词更快。这种“语义”启动现在已被广泛认可。
但在20世纪80年代和90年代,研究人员认为启动可能会影响态度和行为。1979年的一项研究发现,用与“敌意”相关的词语启动个体,会使他们更有可能将故事中人物的行为判断为敌对行为。1996年,纽约大学的心理学家约翰·巴赫发现,用美国传统上与年龄相关的词语(“宾果游戏”、“皱纹”、“佛罗里达”)启动的人,在离开实验室时比对照组走得更慢,就好像他们年纪大了。

图片来源:Nature
随后进行了数十项研究,发现启动可能会影响人们在常识测验中的表现、他们的慷慨程度或他们在任务中的努力程度。这些行为例子被称为社会启动,尽管这个术语存在争议,因为其中许多例子显然与社会无关。其他人更喜欢“行为启动”或“自动行为启动”。
在他的2011年畅销书《思考,快与慢》中,诺贝尔奖得主心理学家丹尼尔·卡尼曼提到了几项最著名的启动研究。“不相信不是一种选择,”他写道。“结果不是捏造的,也不是统计上的侥幸。你别无选择,只能接受这些研究的主要结论是真实的。”
但是,担忧开始浮出水面。同年,康奈尔大学的社会心理学家达里尔·贝姆发表了一项研究,表明学生可以预测未来。贝姆的分析依赖于心理学家经常使用的统计技术。“我记得读到它时心想‘该死。如果我们能做到这一点,我们就遇到麻烦了’,”格勒诺布尔阿尔卑斯大学的社会心理学家汉斯·伊泽曼说。
同样在那一年,另外三位研究人员发表了一项故意的荒谬发现:听披头士乐队歌曲“当我六十四岁”的人实际上比听另一首歌的对照组更年轻。他们通过多种不同的方式分析数据来实现这一结果,通过简单的侥幸在其中一种方式中获得了具有统计学意义的结果,然后没有报告其他尝试。他们说,这种做法在心理学中很常见,并且允许研究人员在给定一些嘈杂的数据和小样本量的情况下,找到他们想要的任何东西。
这些论文产生了爆炸性的影响。 对关键发现产生怀疑的重复实验工作开始出现,其中包括2012年的一份报告,该报告重复了巴赫的衰老研究,发现除非实验观察者被告知预期结果,否则启动没有效果。雪上加霜的是,这一切都发生在人们发现荷兰一位著名的社会心理学家迪德里克·斯塔佩尔多年来一直在伪造数据之时。
2012年,卡尼曼给巴赫和其他“社会启动的学生”写了一封公开信,警告说“火车失事”即将到来。尽管卡尼曼是该研究的“一般信徒”,但他担心斯塔佩尔的欺诈行为、重复实验的失败以及负面结果往往不被发表,已经造成了“怀疑的风暴”。
七年后,这场风暴已经摧毁了社会启动的许多旗舰发现。阿姆斯特丹大学的心理学家埃里克-简·瓦根梅克斯说,当他阅读卡尼曼书中相关部分时,“我就像,‘这些研究中没有一项能够重复。’ 到目前为止,还没有。”
心理学家尤金·卡鲁索在2013年报告说,提醒人们金钱的概念会使他们更可能赞同自由市场资本主义。现在在加州大学洛杉矶分校的卡鲁索说,在尝试了更大规模和更系统的效果测试后,“似乎没有强有力的证据支持它们”。荷兰奈梅亨拉德堡大学的研究员阿普·戴克斯特胡伊斯说,他关于用“教授”这个词启动的学生在测验中表现更好的论文“没有经受住时间的考验”。
卡尼曼告诉《自然》:“我没有及时了解最新的发展,所以不应该评论。”
诺塞克说,早在启动泡沫开始破裂之前,研究人员就在窃窃私语,说他们无法重复重大发现。之后,在与科学界更广泛的可重复性危机分享的教训中,很明显,许多有问题的发现可能是统计噪声——从对太小群体的人进行的研究中获得的侥幸结果——而不是欺诈的结果。似乎许多研究人员没有意识到在嘈杂的数据中找到看起来显著但虚假的结果有多么容易。如果研究人员“HARK”(在已知结果后提出假设)——即在查看数据后更改他们的假设,则尤其如此。期刊往往不发表无效结果的事实无济于事,因为这意味着唯一通过的发现是令人惊讶的发现。
帕皮斯说,还有证据表明,潜意识实验者效应一直是一个问题:一项研究发现,当实验者意识到他们正在寻找的启动效应时,他们更有可能找到它,这表明他们在潜意识中会以某种方式影响结果。
从那时起,整个心理学界都广泛采取行动改进研究方法。这些措施包括在查看数据之前预先注册研究方法,这可以防止HARK,并与更大群体的志愿者合作。例如,诺塞克领导了“多实验室项目”,该项目让数十个实验室的本科生尝试重复相同的心理学研究,样本量达到数千人。平均而言,大约一半的论文 “多实验室项目”研究的论文可以成功重复。其他合作努力包括“心理科学加速器”,这是一个实验室网络,共同努力重复有影响力的研究。
新的社会启动
今天,社会启动领域正在进行的许多工作都涉及重复早期工作,或对多篇论文进行荟萃分析,以试图梳理出哪些仍然成立。今年四月报告的一项对数百项关于多种金钱启动的研究进行的荟萃分析发现,几乎没有证据表明早期研究声称的巨大影响。它还发现,已发表研究中的效应大于与荟萃分析作者分享的未发表实验中的效应(参见“逐渐减弱的效应”)。
帕皮斯说,原创工作并没有完全枯竭,尽管重点正在改变。她说,过去许多备受瞩目的社会启动工作旨在寻找巨大的、普遍的影响。相反,她的小组的研究重点是在已经关心被启动事物的那部分人中寻找较小的影响。她发现,如果想要变得更瘦的人被菜单上诸如“饮食”、“苗条”和“身材苗条”之类的词语启动,他们更有可能做出健康的食物选择。但这只适用于将健康饮食作为核心目标的人;它不会让每个人都避免食用发胖的食物。
这与伊利诺伊大学厄巴纳-香槟分校的心理学家多洛雷斯·阿尔巴拉辛领导的2015年的一项荟萃分析的结果相符。它考察了352项涉及向人们展示词语的启动研究,发现当启动与参与者关心的目标相关时,存在真实但较小的影响的证据。然而,该分析特意只考察了启动词语与声称的效果直接相关的实验,例如与粗鲁相关的词语导致更粗鲁的行为或态度。它避免了考察那些具有其所谓的“隐喻”意义的启动研究——包括巴赫所说的导致行走速度变慢的与衰老相关的词语,或与金钱相关的启动工作。
然而,对启动的研究有所下降,并且被认为是启动的东西并不总是与20世纪90年代和21世纪初的惊人主张相同。伦敦大学学院的神经科学家安东尼娅·汉密尔顿说:“现在比五年前或十年前少了很多”,她仍在研究启动。部分原因是重复性问题:她说:“自从一切爆发以来,我们做得更少了。更难让人相信,而且还有其他更容易研究的主题。” 她说,也可能仅仅是因为这个话题变得不那么流行了。
汉密尔顿自己的工作包括,除其他外,将人们放入功能性磁共振成像(fMRI)扫描仪中,以观察启动如何影响大脑活动。在2015年的一项研究中,她使用一项混乱句子任务来启动“亲社会”想法(例如“帮助”)和“反社会”想法(例如“烦人”),观察它是否使参与者更快地模仿他人的行为,以及大脑扫描中是否存在可检测到的差异。
使用fMRI仅对少数志愿者实用,因此她观察了同一个人在被启动和未被启动时的反应:一种“被试内”设计,与使用对照组的启动研究的“被试间”设计形成对比。汉密尔顿说,这种设计意味着研究人员不必担心群体之间预先存在的差异。她的研究发现了启动效应:用亲社会概念启动的人以更亲社会的方式行事,fMRI扫描确实显示出大脑区域(例如内侧前额叶皮层)的活动差异,该区域参与调节社会行为。但是,她说,这些效应比经典的启动研究发现的效应更适度。
一些研究人员表示,无论测试旧结果的努力结果如何,社会或行为启动的概念仍然具有价值。“我仍然毫不怀疑,尽管在过去,我们相对于目前的标准而言没有正确地研究它,但在现实生活中,行为启动是有效的,”戴克斯特胡伊斯说。
巴赫说,尽管许多研究人员现在不认同它们,但重要的早期进展确实存在——例如他自己2008年的研究,该研究报告称,拿着热咖啡会使人们对他人表现得更热情。直接重复实验未能支持这一结果,但巴赫说,在其他工作中,包括神经影像学研究,已经证明了身体温暖和社会温暖之间的联系。“人们说我们应该把2010年之前的所有工作,我这个年龄和更老的人的工作都扔掉,”巴赫说,“我不明白这有什么道理。” 他和南加州大学的心理学家诺伯特·施瓦茨说,他们的早期社会启动结果已经得到了重复——尽管批评者反驳说,这些不是直接重复,而是“概念性”重复,研究人员在其中使用相关的实验设置来测试一个概念。
巴赫说,即使非学术界人士持怀疑态度,政治活动家和商业营销人员等非学术界人士仍然广泛相信和使用社会启动的结果。例如,加拿大多伦多大学的组织心理学家加里·莱瑟姆说:“我非常不喜欢巴赫的发现,并想证明它不起作用。” 尽管如此,他说,十年来,他一直持续发现,用与成功和获胜概念相关的词语启动电话营销人员,可以增加他们赚到的钱。但加州大学伯克利分校的心理学家莱夫·纳尔逊强调,无论社会启动的想法随后是否得到证实,该领域的经典研究在统计学上都不足以检测到他们声称要发现的东西。
巴赫看到了心理学研究变化中的积极和消极因素。“如果预注册阻止人们进行HARK,那么我想这是好事,”他说,“但这总是让我觉得是一种侮辱。“我们不相信你会诚实”;感觉我们被当作罪犯对待,戴着脚踝手镯。”
其他人不同意。大多数心理学家认为,转向开放、可重复的科学是一项巨大的成功。社会启动作为一个领域可能会幸存下来,但如果它没有幸存下来,那么至少其备受瞩目的问题对于迫使心理学清理其行为至关重要。“我不得不说,我对该领域在八年中取得的进展感到惊喜,”瓦根梅克斯说。“这彻底改变了人们做事和解释事物的方式。”
本文经许可转载,最初于2019年12月11日首次发表。