谁是第一个绕地球飞行的美国人?
A) 尼尔·阿姆斯特朗
B) 尤里·加加林
C) 约翰·格伦
D) 尼基塔·赫鲁晓夫
在美国各地的学校中,像这样的多项选择题会引起焦虑,甚至恐惧。 它们的出现意味着考试时间到了,而考试是重大的、重要的、极其令人不快的事件。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。
但在伊利诺伊州哥伦比亚中学的八年级历史老师帕特里斯·班恩的课堂上并非如此。 班恩有一双生动的蓝眼睛,快速的微笑,以及看起来既朋克又精灵的尖尖铂金发。 在智能白板上显示问题后,她停顿了一下,她的学生在称为答题器的编号设备上输入他们的答案。
“好的,每个人都输入答案了吗?” 她问道。 “19号,我们正在等你!” 19号匆忙输入了一个选项,班恩和她的学生一起查看了班级的回答,这些回答现在显示在智能白板屏幕的底部。 “你们大多数人都答对了——约翰·格伦——非常好。” 她咯咯地笑着,摇了摇头,看着她的三个学生提交的答案。 “哦,我的宝贝们,”班恩用开玩笑的责备语气说道。 “赫鲁晓夫不是宇航员!”
班恩继续进行下一个问题,快速重复提问、回答和解释的过程,她和她的学生一起完成了 20 世纪 60 年代的历史学习。
猪湾入侵失败事件涉及美国和哪个国家?
A) 洪都拉斯
B) 海地
C) 古巴
D) 危地马拉
当每个学生都给出正确答案时,班级成员举起手,齐声摆动手指,这是一个他们称之为“精神手指”的欢快手势。 猪湾问题就是这种情况:每个学生都答对了。
“太棒了!” 班恩兴奋地说。 “这是我们今天的第五个精神手指!”
班恩教室里的玩笑与全国各地公立学校紧张的对峙截然不同。 自 2002 年《不让一个孩子掉队法案》颁布以来,家长和教师对该法律强制要求对三年级至八年级“每个孩子、每年”进行测试的反对声日益强烈。 越来越多的家长让他们的孩子退出年度州级考试; “退出”运动的中心可能是纽约州,据报道,在一些学区,近 90% 的学生拒绝参加 2015 年春季的年度考试。 美国学校过度强调考试的批评者指责说,高风险评估给学生和教师带来了焦虑,将教室变成了应试工厂,而不是真正有意义的学习实验室。
在关于美国学生应该如何接受教育的始终两极分化的辩论中,考试已成为最具争议的问题。 事实上,为了回应长期以来两党对《不让一个孩子掉队法案》的反对,国会在 2015 年底颁布了一项法律,废除了《不让一个孩子掉队法案》政策所确立的大部分联邦政府对教育的影响。 然而,到目前为止,讨论中一直缺少一个关键部分。 认知科学和心理学的研究表明,如果做得对,测试可能是一种异常有效的学习方式。 参加测试,以及在测试之前和之后参与精心设计的活动,可以比没有考试的教育更好地回忆事实——以及更深入和更复杂的理解。 但是,除了简单地评估之外,积极支持学习的测试制度将与美国学校今天“进行”测试的方式大相径庭。
班恩在她的课堂上所做的事情被称为检索练习。 这种练习在学术文献中有着良好的实证支持基础,可以追溯到近 100 年前——但班恩并没有意识到这项研究,她在课堂上超过 20 年的时间里,自己摸索出了一些非常相似的东西。
“有人告诉我我是一位出色的老师,这很好听,但与此同时,我觉得有必要告诉人们:‘不,不是我——是方法,’”班恩在课后采访中说道。 “我看到它创造了如此多的奇迹,以至于我想爬到山顶大喊,让每个人都能听到我:‘你也应该这样做!’ 但说服其他老师尝试它一直很困难。”
然后,九年前,她通过一位共同的朋友认识了马克·丹尼尔。 丹尼尔是圣路易斯华盛顿大学的心理学教授,距离班恩的学校只有半小时车程。 丹尼尔刚开始向班恩描述他对检索练习的研究,她就惊呼一声打断了他。 “帕特里斯说,‘我在我的课堂上做过! 它有效!’”丹尼尔回忆道。 他继续向班恩解释说,他和他的同事所说的检索练习本质上就是测试。 “我们过去称之为‘测试效应’,直到我们变得聪明并意识到没有老师或家长会想要接触一种带有‘测试’字眼的技术,”丹尼尔现在指出。
检索练习不使用测试作为评估工具。 相反,它将测试视为学习的机会,这只有在我们认识到我们误解了测试的本质后才有意义。 我们认为测试是一种插入学生头脑中的量油尺,一种告诉我们那里的知识水平上升了多少的指标——而事实上,每当学生从记忆中调用知识时,记忆都会改变。 它的心理表征变得更强、更稳定、更易于访问。
为什么会这样呢? 普渡大学认知心理学教授杰弗里·D·卡皮克说,考虑到我们不可能记住我们遇到的一切,这是有道理的。 鉴于我们的记忆必然是选择性的,一个事实或想法的有用性——正如我们有多少次有理由回忆起它所证明的那样——为选择提供了可靠的基础。 “我们的头脑对我们在未来某个时间需要知识的可能性很敏感,如果我们现在检索一条信息,我们很可能再次需要它,”卡皮克解释说。 “检索记忆的过程会改变记忆,以应对我们未来可能遇到的需求。”
使用大脑功能性磁共振成像 (fMRI) 的研究开始揭示测试效应背后的神经机制。 在迄今为止进行的少数研究中,科学家们发现,与简单地重新学习信息相比,从记忆中调用信息会在大脑的特定区域产生更高水平的活动。 这些大脑区域与记忆的所谓巩固或稳定化以及产生使记忆在以后易于访问的线索有关。 在几项研究中,研究人员已经证明,这些区域在初始学习会话期间越活跃,研究参与者在几周或几个月后的回忆就越成功。
根据卡皮克的说法,检索是学习发生的主要方式。 “回忆我们已经存储在记忆中的信息比首先存储该信息更有效,”他说。 “检索最终是使新记忆持久的过程。” 检索练习不仅可以帮助学生记住他们检索到的具体信息,还可以提高对未直接测试的相关信息的保留率。
研究人员推测,当我们在大脑中搜索我们试图回忆的特定信息时,我们会调用相关的记忆,并通过这样做来加强它们。 检索练习还有助于防止学生将他们当前正在学习的材料与他们之前学习的材料混淆,甚至似乎可以使学生的大脑做好更充分吸收材料的准备,当他们在测试后再次遇到材料时(研究人员称之为测试增强学习的现象)。
数百项研究表明,检索练习在提高保留率方面优于学习者可以使用的几乎任何其他方法。 举例来说:在卡皮克和他的导师,华盛顿大学的亨利·L·罗迪格三世于 2008 年发表的一项研究中,作者报告说,对词汇术语进行自我测验的学生后来记住了 80% 的单词,而通过反复阅读单词来学习单词的学生只记住了大约三分之一的单词。 与学生最喜欢的学习策略相比,检索练习尤其有效:突出显示和重读笔记和教科书,最近的一项评论发现这些做法是最无效的。
而且测试不仅仅增强对孤立事实的回忆。 从记忆中提取信息的过程也培养了研究人员所说的深度学习。 参与深度学习的学生能够从他们知道的事实中得出推论,并在事实之间建立联系,并且能够在不同的情境中应用他们的知识——学习科学家称之为迁移的过程。 在卡皮克和他的普渡大学同事贾内尔·布朗特于 2011 年在 科学 杂志上发表的一篇文章中,他们明确地将检索练习与一种称为概念图的学习技术进行了比较。 概念图是一种受到许多教师青睐的促进深度学习的方法,它要求学生绘制一张图表,描述他们正在学习的知识体系,概念之间的关系用节点之间的链接表示,就像地图上连接城市的道路一样。
在他们的研究中,卡皮克和布朗特指导了 200 名本科生志愿者(共 200 名)阅读一篇摘自科学教科书的段落。 然后,一组学生被要求在参考课本的情况下创建概念图; 另一组学生被要求从记忆中回忆尽可能多的他们刚刚阅读的课本信息。 在一周后对所有学生进行的测试中,检索练习组比概念图组更能够回忆起课本中呈现的概念。 更引人注目的是,前一组学生也更能够从课本中包含的多个概念中得出推论并建立联系。 总的来说,卡皮克和布朗特得出结论,检索练习在促进事实学习和深度学习方面都有效约 50%。
迁移——将在一个情境中学到的知识应用到另一个情境的能力——是深度学习的最终目标。 在德克萨斯大学奥斯汀分校心理学家安德鲁·巴特勒于 2010 年发表的一篇文章中,他证明检索练习比传统的重读学习方法更能促进迁移。 在巴特勒的实验中,学生在阅读了一篇与一个“知识领域”相关的课文后,要么进行重读,要么进行检索练习——在本例中,是蝙蝠使用声波来寻找方向。 一周后,学生们被要求将他们学到的关于蝙蝠的知识迁移到第二个知识领域:潜艇对声波的导航使用。 对关于蝙蝠的原始课文进行过自我测验的学生更能够将他们关于蝙蝠的学习迁移到潜艇上。
现实世界的证据
尽管这些发现非常可靠,但直到最近,它们几乎完全是在实验室中对大学生作为受试者进行的。 丹尼尔一直想在现实世界的学校中应用检索练习,但进入 K-12 课堂是一个挑战。 在班恩的帮助下,丹尼尔和他的两位华盛顿大学同事罗迪格和凯瑟琳·麦克德莫特在哥伦比亚中学建立了一项随机对照试验,最终涉及 9 名教师和 1400 多名学生。 在实验过程中,六年级、七年级和八年级的学生以两种方式之一学习科学和社会研究:1) 材料呈现一次,然后老师与学生复习三次; 2) 材料呈现一次,学生接受三次测验(使用班恩当前教室中使用的答题器)。
当计算出学生单元测试的常规结果时,两种方法之间的差异显而易见:学生在复习过的材料上获得的平均成绩为 C+,在测验过的材料上获得的平均成绩为 A-。 在八个月后进行的后续测试中,学生仍然比复习过的材料更好地记住了测验过的材料。
“我一直认为测试是一种评估方式——而不是一种学习方式——所以最初我持怀疑态度,”哥伦比亚中学的前教师,现在担任教学设计师的安德里亚·马岑巴赫说。 “但我被检索练习给学生成绩带来的差异所震撼。” 班恩并没有感到惊讶。 “我知道这种方法有效,但很高兴看到它得到了科学证明,”她说。 丹尼尔、罗迪格和麦克德莫特最终将这项研究扩展到了附近的哥伦比亚高中,在那里,测验也产生了同样令人印象深刻的结果。 为了使检索练习成为全国课堂的常用策略,华盛顿大学团队为教师编写了一本手册,如何使用检索练习来提高学习。
然而,即使有大量证据支持,检索练习的倡导者仍然必须应对许多教师和家长对测试的本能负面反应。 他们还会遇到更深思熟虑的反对意见,大致是这样的:美国学生已经接受了如此多的测试——远远超过其他国家(如芬兰和新加坡)的学生,这些国家在国际评估中经常名列美国之前。 如果测试是如此出色的学习方式,为什么我们的学生没有做得更好呢?
玛莎·洛维特对这个问题有一个现成的答案。 洛维特是卡内基梅隆大学教学卓越和教育创新埃伯利中心主任,是“元认知”方面的专家——元认知是指思考我们自己的学习能力,意识到我们知道和不知道什么,并利用这种意识有效地管理学习过程。
是的,洛维特说,美国学生参加了很多测试。 正是之后发生的事情——或者更准确地说,没有发生的事情——导致这些测试未能发挥学习机会的作用。 学生们通常很少收到关于他们做对了什么和做错了什么的信息。 “这种逐项反馈对于学习至关重要,而我们正在浪费这种学习机会,”她说。 此外,很少提示学生以全局方式反思他们为测试所做的准备以及在测试中的表现。 “通常,学生只是瞥一眼成绩,然后把试卷塞到某个地方,再也不看了,”洛维特说。 “再说一遍,这是一个非常重要的学习机会,我们正在让它白白浪费掉。”
几年前,洛维特想出了一种让学生在测试后进行反思的方法。 她称之为“考试包装纸”。 当教师将评分后的试卷还给学生时,同时还会附上一张纸,这张纸实际上是包裹在试卷本身上的。 这张纸上列出了一系列问题:一项简短的练习,学生需要完成并交上来。 洛维特为数学考试设计的包装纸包括以下问题:
您在以下各项中花费了多少时间复习
阅读课堂笔记? ___ 分钟
重做旧的家庭作业题? ___ 分钟
做额外的习题? ___ 分钟
阅读课本? ___ 分钟
现在您已经看过了您的试卷,请估计您因以下各项原因损失的分数百分比
___ % 来自于不理解概念
___ % 来自于不小心(即,粗心大意的错误)
___ % 来自于无法制定解决问题的方法
___ % 来自于其他原因(请具体说明)
根据上面的估计,您在为下一次考试做准备时会做哪些不同的事情? 例如,您会改变您的学习习惯还是尝试提高特定的技能? 请具体说明。 另外,我们可以做些什么来帮助您?
洛维特说,这个想法是让学生思考他们不知道或不理解什么,他们为什么未能掌握这些信息,以及他们如何在下一次考试之前更有效地做好准备。 洛维特多年来一直在向卡内基梅隆大学的教师推广考试包装纸的使用,许多教授,尤其是理科教授,已将这项技术纳入他们的课程中。 他们在评分后的考试中分发考试包装纸,收集完成后的包装纸,并且——最聪明的是——他们在学生为下一次考试做准备时,将包装纸还给学生。
这种做法有效果吗? 2013 年,洛维特在编辑卷使用反思和元认知来提高学生学习中发表了一章关于考试包装纸的研究。 它报告说,使用考试包装纸的班级学生的元认知技能在一个学期内的增长幅度大于不使用考试包装纸的课程的学生。 此外,学期末的调查发现,在获得考试包装纸的学生中,超过一半的学生表示,由于填写包装纸,他们对学习和学习方法进行了具体改变。
使用考试包装纸的做法开始 распространяться 到其他大学和 K-12 学校。 洛瑞·西克斯在佛罗里达州迈尔斯堡的里弗代尔高中任教,并在她的 AP 生物课上使用了考试包装纸。 当她还回评分后的试卷时,考试包装纸包括以下问题:
您大约花了多少时间为考试做准备?(请诚实。)
电视/收音机/电脑开着吗? 您在学习时是否在任何社交媒体网站上? 您在玩电子游戏吗?(请诚实。)
现在您已经看过了试卷,请检查您难以应付的以下领域
应用定义 ___
缺乏对概念的理解 ___
粗心大意的错误 ___
阅读图表或图形 ___
根据您对上述问题的回答,说出您在为下一次考试做准备时至少会做三件不同的事情。 请具体说明。
“学生通常只想知道他们的成绩,仅此而已,”西克斯说。 “让他们填写考试包装纸会让他们停下来思考他们是如何为考试做准备的,以及他们的方法是否对他们有效。”
除了分发考试包装纸外,西克斯还抽出课堂时间逐题复习评分后的考试——这种反馈有助于学生培养“元认知监控”的关键能力,即密切关注他们知道什么以及他们还需要学习什么。 关于检索练习的研究表明,测试可以识别学生知识中的具体差距,以及消除学生容易产生的普遍过度自信——但前提是提供及时的反馈作为纠正。
随着时间的推移,反复接触这种测试-反馈循环可以激励学生培养监控自己心理过程的能力。 接受一流教育的富裕学生可能会自然而然地获得这项技能,但这种能力在就读于苦苦挣扎的学校的低收入学生中往往是缺乏的——为检索练习实际上可能开始缩小优势群体和弱势群体之间的成就差距提供了希望。
这正是德克萨斯大学奥斯汀分校的詹姆斯·彭尼贝克和塞缪尔·戈斯林教授在他们在共同教授的大型心理学课程中实施日常测验时发现的。 测验是在网上进行的,使用软件在学生提交答案后立即告知学生他们是否正确回答了问题。 在开设日常测验的课程中,901 名学生获得的平均成绩比彭尼贝克和戈斯林之前的 935 名学生的比较组获得的平均成绩高出大约半个字母等级,后者经历了涵盖相同内容的更传统设计的课程。
令人惊讶的是,参加心理学课程日常测验的学生在其他课程中的表现也更好,在他们注册彭尼贝克和戈斯林课程的学期以及随后的学期中——这表明频繁的测试和反馈有助于提高他们的一般自我调节技能。 最令教授们兴奋的是,日常测验使不同社会阶层学生之间的成绩差距缩小了 50%,这是以成绩来衡量的。 “反复测试是一种强大的实践,可以直接提高学习和思维技能,并且对那些起点学术背景较弱的学生尤其有帮助,”戈斯林说。
标准化困境
戈斯林和彭尼贝克(以及德克萨斯大学研究生杰森·费雷尔)在 2013 年在 PLOS ONE 杂志上发表了他们关于日常测验效果的调查结果,他们认为学生收到的“快速、有针对性和结构化的反馈”提高了反复测试的有效性。 而这正是美国公立学校学生面临的困境,根据美国进步中心最近进行的一项研究,三年级至八年级的学生平均每年参加 10 次标准化测试。 与此处介绍的教师和教授编写的试卷不同,标准化测试通常由商业出版公司出售给学校。 这些测试的分数通常在考试结束后数周甚至数月才到达。 并且为了维护试题的安全性——以及在未来的测试中再次使用这些试题——测试公司不提供逐项反馈,只提供相当不翔实的数值分数。
标准化州级测试还有另一个特点,使其无法更有效地用作学习机会。 他们提出的问题绝大多数是肤浅的——这几乎不可避免地导致肤浅的学习。

教导的测试
测验可以做的不仅仅是评估学习——它们可以促进学习。 在一项旨在比较学习与测试的研究中,心理学家在 2008 年发表在 科学 杂志上的一项研究中,要求四组大学生学习 40 个斯瓦希里语词汇。 第一组学习了这些单词,并反复对它们进行了测试。 其他组从后续学习或测试中删除了他们已经记住的单词,或两者都删除了。 一周后,反复测试所有单词的学生记住了 80%,而只学习单词的学生记住了大约三分之一。
来源:“检索对于学习的关键重要性”,杰弗里·D·卡皮克和亨利·L·罗迪格三世,《科学》,第 310 卷; 2008 年 2 月 19 日
如果目前美国使用的州级测试本身在他们提出的问题的难度和深度方面进行评估,那么几乎所有测试都会不及格。 这是当时在非营利智库兰德公司担任行为科学家的昆·元和维·阮·乐得出的结论。 在 2012 年发布的一份报告中,元和乐评估了 17 个州提供的数学和英语语言艺术测试,根据每个问题对应试者提出的认知挑战对其进行评级。 研究人员使用了一种名为韦伯知识深度工具——由威斯康星州教育研究中心的资深科学家诺曼·韦伯创建——该工具确定了四个级别的心理严谨性,从 DOK1(简单回忆)到 DOK2(技能和概念的应用),再到 DOK3(推理和推断)和 DOK4(扩展计划和调查)。
元和乐考察的州级测试中的大多数问题都处于 DOK1 或 DOK2 级别。 作者使用 DOK4 级别作为衡量更深层次学习的问题的基准,以此标准衡量,测试完全失败。 元和乐报告说,只有 1% 到 6% 的学生通过州级测试评估了更深层次的阅读学习; 2% 到 3% 的学生评估了更深层次的写作学习; 0% 的学生评估了更深层次的数学学习。 “测试衡量什么很重要,因为测试的内容往往会驱动教学,”斯坦福大学教育研究生院荣誉教授、学习和评估领域的国家权威琳达·达令-哈蒙德观察到。 她指出,当奖励和惩罚与测试结果挂钩时,尤其如此,例如《不让一个孩子掉队法案》以及各州自己的“问责制”措施。
根据达令-哈蒙德的说法,《不让一个孩子掉队法案》的规定实际上迫使各州采用廉价的多项选择题测试,这些测试可以通过机器评分——她认为,此类测试几乎不可能衡量深度学习。 但是其他类型的测试可以做到这一点。 达令-哈蒙德与她的斯坦福同事弗兰克·亚当森合著了 2014 年出版的超越气泡测试一书,该书描述了一种截然不同的评估愿景:提出开放式问题(答案由教师而不是机器评估)、要求学生发展和捍卫论点、并要求应试者进行科学实验或撰写研究报告的测试。
达令-哈蒙德指出,在 20 世纪 90 年代,一些美国州已经开始实施此类测试。 随着《不让一个孩子掉队法案》的通过,这项努力结束了。 她承认,由于对后勤和成本的担忧,转向更复杂的测试的运动也停滞了。 尽管如此,以这种方式评估学生并非痴人说梦:其他国家,如英国和澳大利亚,已经在这样做了。 “他们的学生正在进行真正的科学家和历史学家的工作,而我们的学生正在填写气泡,”达令-哈蒙德说。 “这太可悲了。”
她确实看到了一些乐观的理由:美国正在开发新一代测试,以评估学生在多大程度上达到了共同核心州立标准,这是 43 个州采用的一套识字和数学学术基准。 达令-哈蒙德说,其中两项测试——Smarter Balanced 和大学和职业准备度评估合作伙伴关系 (PARCC)——显示出作为深度学习测试的前景,她指出,加州大学洛杉矶分校国家评估、标准和学生测试研究中心的琼·赫尔曼和罗伯特·林恩最近进行了一项评估。 赫尔曼指出,这两项测试都旨在强调韦伯知识深度 2 级及以上的问题,至少有三分之一的学生总分来自 DOK3 和 DOK4 的问题。 “PARCC……可能没有达到我们希望的程度,”赫尔曼在 2014 年的博客文章中承认,“但它们可能会带来巨大的进步。”