在美国各地的学校中,像这样的多项选择题会引起焦虑,甚至恐惧。 它们的出现意味着考试时间到了,而考试是重大、重要且极其令人不快的事件。
但在伊利诺伊州哥伦比亚中学的八年级历史老师帕特里斯·班恩的课堂上却并非如此。 班恩有一双活泼的蓝眼睛、灿烂的笑容和看起来既像朋克又像精灵般的蓬松铂金色头发。 在智能白板上展示问题后,她停顿了一下,等待她的学生在称为答题器的编号设备上输入答案。
“好了,大家都输入答案了吗?”她问道。 “19号,我们在等你!” 19号匆忙输入了一个选项,班恩和她的学生们一起查看了班级的回答,现在这些回答显示在智能白板屏幕的底部。 “你们大多数人都答对了——约翰·格伦——非常好。” 她咯咯地笑着,摇了摇头,看着她的三个学生提交的答案。 “哦,我的乖孩子们,”班恩用开玩笑的责备语气说道。 “赫鲁晓夫不是宇航员!”
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。 通过购买订阅,您将帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
班恩继续进行下一个问题,快速重复提问、回答和解释的过程,她和她的学生们一起完成了 20 世纪 60 年代的内容。
当每个学生都给出正确答案时,班级成员举起手,齐声摇动手指,这是一个他们称之为“精神手指”的欢快手势。 猪湾事件问题就是这种情况:每个学生都答对了。
“太棒了!”班恩兴奋地说。 “这是我们今天第五次精神手指!”
班恩教室里的玩笑话与全国各地公立学校紧张的对峙截然不同。 自 2002 年《不让一个孩子掉队法案》颁布以来,家长和教师对该法案关于在三年级到八年级“每年对每个孩子”进行测试的强制要求的反对日益强烈。 越来越多的家长让他们的孩子退出年度州级考试; “退出”运动的中心可能是纽约州,据报道,去年春天,一些学区多达 90% 的学生拒绝参加期末考试。 美国学校对考试的过度重视的批评者指责说,高风险评估给学生和教师带来了焦虑,将教室变成了应试工厂,而不是真正有意义的学习实验室。
在关于美国学生应该如何接受教育的始终两极分化的辩论中,考试已成为最具争议的问题。 然而,迄今为止,讨论中一直缺少一个关键部分。 认知科学和心理学的研究表明,正确地进行测试可以成为一种非常有效的学习方式。 参加测试,以及在测试前后参与精心设计的活动,可以比没有考试的教育产生更好的事实回忆——以及更深刻和更复杂的理解。 但是,除了简单地评估之外,积极支持学习的考试制度,将与美国学校今天“进行”考试的方式大相径庭。
班恩在她的课堂上所做的事情称为检索练习。 这种做法在学术文献中有着良好的实证支持基础,可以追溯到近 100 年前——但班恩并不知道这项研究,她在 21 年的课堂生涯中自己摸索出了一些非常相似的东西。
“有人告诉我,我是一位出色的老师,这听起来不错,但与此同时,我觉得有必要告诉人们:‘不,不是我——是方法,’”班恩在课后接受采访时说。 “我摸索着找到了这种方法,我看到它产生了如此奇迹般的效果,以至于我想爬到山顶大喊,让每个人都能听到我:‘你也应该这样做!’ 但说服其他老师尝试它一直很困难。”
然后,八年前,她通过一位共同的熟人认识了马克·麦克丹尼尔。 麦克丹尼尔是圣路易斯华盛顿大学的心理学教授,距离班恩的学校只有半小时车程。 麦克丹尼尔开始向班恩描述他对检索练习的研究,这时班恩惊呼一声打断了他。 “帕特里斯说,‘我在我的课堂上这样做! 它有效!’” 麦克丹尼尔回忆道。 他继续向班恩解释说,他和他的同事所说的检索练习本质上就是测试。 “我们过去称之为‘测试效应’,直到我们变得聪明并意识到没有老师或家长愿意接触带有‘测试’字眼的技术,”麦克丹尼尔现在指出。
检索练习不使用测试作为评估工具。 相反,它将测试视为学习的机会,这只有在我们认识到我们误解了测试的本质时才有意义。 我们认为测试是一种插入学生头脑中的试纸,一种告诉我们那里的知识水平上升了多少的指标——但事实上,每次学生从记忆中调用知识时,记忆都会改变。 它的心理表征变得更强、更稳定、更容易访问。
为什么会这样呢? 普渡大学认知心理学教授杰弗里·卡皮克认为,考虑到我们不可能记住我们遇到的一切,这很有道理。 鉴于我们的记忆必然是选择性的,一个事实或想法的有用性——正如我们有多少次有理由回忆起它所证明的那样——为选择提供了良好的基础。 “我们的思想对我们在未来某个时候需要知识的可能性很敏感,如果我们现在检索一条信息,我们很可能再次需要它,”卡皮克解释说。 “检索记忆的过程会改变记忆,以应对我们未来可能遇到的需求。”
使用大脑功能性磁共振成像的研究开始揭示测试效应背后的神经机制。 在迄今为止进行的少量研究中,科学家们发现,与简单地重新学习相比,从记忆中调用信息会在大脑的特定区域产生更高水平的活动。 这些大脑区域与记忆的所谓巩固或稳定以及产生使记忆在以后易于访问的线索有关。 在多项研究中,研究人员已经证明,在最初的学习过程中,这些区域越活跃,研究参与者在几周或几个月后的回忆就越成功。
卡皮克认为,检索是学习发生的主要方式。 “回忆我们已经存储在记忆中的信息比首先存储该信息更有效,”他说。 “检索最终是使新记忆持久的过程。” 检索练习不仅可以帮助学生记住他们检索到的特定信息,还可以提高对未直接测试的相关信息的记忆力。 研究人员推测,在我们的头脑中搜索我们试图回忆的特定信息时,我们会调用相关的记忆,从而也加强它们。 检索练习还有助于防止学生将他们当前学习的材料与他们以前学习的材料混淆,甚至似乎可以为学生的大脑做好准备,以便在测试后再次遇到该材料时更彻底地吸收该材料(研究人员称之为“测试增强学习”的现象)。
数百项研究表明,检索练习在提高记忆力方面优于学习者可以使用的几乎任何其他方法。 举一个例子:在卡皮克和他的导师,华盛顿大学的亨利·罗迪格三世于 2008 年发表的一项研究中,作者报告说,对词汇术语进行自我测验的学生后来记住了 80% 的单词,而通过反复阅读单词来学习单词的学生只记住了大约三分之一的单词。 与学生最喜欢的学习策略相比,检索练习尤其强大:突出显示和重读笔记和教科书,最近的一项评论发现这些做法是最无效的做法之一。
并且测试不仅仅增强孤立事实的回忆。 从记忆中提取信息的过程也培养了研究人员所说的深度学习。 参与深度学习的学生能够从他们知道的事实中进行推断和建立联系,并且能够在不同的背景下应用他们的知识(学习科学家称之为迁移的过程)。 在卡皮克和他的普渡大学同事贾内尔·布伦特于 2011 年在《科学》杂志上发表的一篇文章中,他们明确地将检索练习与一种称为概念图的学习技术进行了比较。 概念图是许多教师喜欢的一种促进深度学习的活动,它要求学生绘制一个图表,描述他们正在学习的知识体系,概念之间的关系用节点之间的链接表示,就像道路连接地图上的城市一样。
在他们的研究中,卡皮克和布伦特指导了 200 名本科志愿者阅读一篇从科学教科书中摘取的段落。 然后,一组被要求在参考课文的情况下创建概念图; 另一组被要求从记忆中回忆起他们刚刚阅读的课文中的尽可能多的信息。 在一周后对所有学生进行的测试中,检索练习组比概念图组更能回忆起课文中提出的概念。 更引人注目的是,前一组也更能够从课文中包含的多个概念中进行推断和建立联系。 总的来说,卡皮克和布伦特得出结论,检索练习在促进事实学习和深度学习方面都有效约 50%。
迁移——将在一个背景下学习的知识应用到另一个背景下的能力——是深度学习的最终目标。 在德克萨斯大学奥斯汀分校心理学家安德鲁·巴特勒于 2010 年发表的一篇文章中,他证明检索练习比传统的重读学习方法更能促进迁移。 在巴特勒的实验中,学生在阅读了关于一个“知识领域”的课文后,要么进行重读,要么进行检索练习——在本例中,是蝙蝠使用声波导航。 一周后,学生们被要求将他们所学的关于蝙蝠的知识迁移到第二个知识领域:潜艇对声波的导航使用。 对关于蝙蝠的原始课文进行过自我测验的学生更能将他们对蝙蝠的学习迁移到潜艇上。
尽管这些发现非常可靠,但直到最近,它们几乎完全是在实验室中进行的,以大学生为研究对象。 麦克丹尼尔长期以来一直希望在现实世界的学校中应用检索练习,但进入 K-12 课堂是一个挑战。 在班恩的帮助下,麦克丹尼尔和他的两位华盛顿大学同事罗迪格和凯瑟琳·麦克德莫特在哥伦比亚中学建立了一项随机对照试验,最终涉及 9 名教师和 1400 多名学生。 在实验过程中,六年级、七年级和八年级的学生以两种方式之一学习科学和社会研究:1) 材料呈现一次,然后老师与学生一起复习三次; 2) 材料呈现一次,学生对其进行三次测验(使用像班恩当前课堂上的那种答题器)。
当计算出学生定期单元测试的结果时,两种方法之间的差异很明显:学生在复习过的材料上获得了 C+ 的平均成绩,而在测验过的材料上获得了 A- 的平均成绩。 在八个月后进行的后续测试中,学生们仍然比复习过的材料更好地记住了他们测验过的材料。
“我一直认为测试是一种评估方式——而不是一种学习方式——所以最初我持怀疑态度,”哥伦比亚中学的前教师安德里亚·马岑巴赫尔说,她现在是一名教学设计师。 “但我被检索练习对学生表现产生的差异震惊了。” 班恩本人并不感到惊讶。 “我知道这种方法有效,但很高兴看到它得到科学证明,”她说。 麦克丹尼尔、罗迪格和麦克德莫特最终将研究扩展到附近的哥伦比亚高中,测验也产生了同样令人印象深刻的结果。 为了使检索练习成为全国课堂上常用的策略,华盛顿大学团队(在哈佛大学的研究助理普贾·K·阿加瓦尔的帮助下)为教师编写了一本手册《如何使用检索练习来提高学习效果》。
然而,即使有大量证据支持,检索练习的倡导者仍然必须应对许多教师和家长对测试的本能负面反应。 他们还遇到一个更深思熟虑的反对意见,大致是这样的:美国学生已经被测试了很多次——远远超过其他国家(如芬兰和新加坡)的学生,这些国家在国际评估中经常位居美国之前。 如果测试是一种如此好的学习方式,为什么我们的学生没有做得更好?
玛莎·洛维特对这个问题有一个现成的答案。 洛维特是卡内基梅隆大学埃伯利教学卓越和教育创新中心主任,是一位“元认知”专家——即思考我们自己学习的能力,意识到我们知道什么和不知道什么,并利用这种意识有效地管理学习过程。
是的,洛维特说,美国学生参加了很多考试。 关键在于之后发生的事情——或者更准确地说,没有发生的事情——导致这些测试未能发挥作为学习机会的作用。 学生们通常很少收到关于他们答对什么和答错什么的信息。 “这种逐项反馈对于学习至关重要,而我们正在浪费这种学习机会,”她说。 此外,很少提示学生以宏观的方式反思他们对考试的准备和表现。 “学生们通常只是瞥一眼成绩,然后把试卷塞到某个地方,再也不看它了,”洛维特说。 “再说一遍,这是一个非常重要的学习机会,我们正在让它白白浪费掉。”
几年前,洛维特想出了一种让学生在考试后进行反思的方法。 她称之为“考试包装纸”。 当老师将评分后的试卷还给学生时,会附带一张纸,这张纸实际上包裹在试卷本身上。 这张纸上列出了一系列问题:学生需要完成并交上来的一项简短练习。 洛维特为数学考试设计的包装纸包括以下问题,例如
根据以上估计,您在准备下一次考试时会有什么不同的做法? 例如,您会改变您的学习习惯还是尝试提高特定的技能? 请具体说明。 此外,我们能为您提供什么帮助?
洛维特说,其目的是让学生思考他们不知道或不理解什么,他们为什么没有掌握这些信息,以及他们如何在下一次考试前更有效地准备。 洛维特多年来一直在向卡内基梅隆大学的教员推广考试包装纸的使用,许多教授,尤其是在科学领域的教授,已将这项技术纳入他们的课程。 他们在发回评分后的试卷时附带考试包装纸,收集已完成的包装纸,并且——最聪明的是——他们在学生准备下一次考试时发回包装纸。
这种做法有作用吗? 2013 年,洛维特在编辑卷《使用反思和元认知来提高学生学习效果》中的一章中发表了一项关于考试包装纸的研究。 该研究报告称,使用考试包装纸的班级学生的元认知技能在一个学期内的提高幅度大于未使用考试包装纸的课程的学生。 此外,学期末调查发现,在获得考试包装纸的学生中,超过一半的人表示,他们因填写包装纸而在学习和学习方法上做出了具体的改变。
使用考试包装纸的做法开始 распространяться 到其他大学和 K-12 学校。 洛里·西克斯在佛罗里达州迈尔斯堡的里弗代尔高中任教,并在她的 AP 生物课上使用了考试包装纸。 当她发回评分后的试卷时,考试包装纸包括以下问题,例如
根据您对以上问题的回答,说出您在准备下一次考试时至少会做的三件不同的事情。 请具体说明.
“学生通常只想知道他们的成绩,仅此而已,”西克斯说。 “让他们填写考试包装纸让他们停下来思考他们是如何准备考试的,以及他们的方法是否对他们有效。”
除了分发考试包装纸外,西克斯还抽出课堂时间逐题讲解评分后的试卷——这种反馈有助于学生培养“元认知监控”的关键能力,即掌握他们知道什么以及他们仍然需要学习什么。 关于检索练习的研究表明,测试可以识别学生知识中的具体差距,并消除学生容易产生的普遍过度自信——但前提是提供及时的反馈作为纠正。
随着时间的推移,反复接触这种测试-反馈循环可以激励学生发展监控自己心理过程的能力。 接受一流教育的富裕学生可能会自然而然地获得这项技能,但就读于困难学校的低收入学生往往缺乏这种能力——这为检索练习实际上可能开始缩小优势群体和弱势群体之间的成绩差距提供了充满希望的可能性。
这正是德克萨斯大学奥斯汀分校的詹姆斯·彭尼贝克和塞缪尔·戈斯林教授在他们共同教授的大型心理学课程中实行每日测验时发现的。 测验是在网上进行的,使用软件在学生提交答案后立即告知学生他们是否正确回答了问题。 参加每日测验的课程的 901 名学生的平均成绩比彭尼贝克和戈斯林之前 935 名学生的比较组的平均成绩高出大约半个字母等级,后者体验了涵盖相同材料的更传统设计的课程。
令人惊讶的是,在心理学课上参加每日测验的学生在其他课程中也表现得更好,无论是在他们参加彭尼贝克和戈斯林课程的学期还是在随后的学期,这表明频繁的测试和反馈有助于提高他们的自我调节的普遍技能。 最令教授们兴奋的是,每日测验使不同社会阶层的学生之间的成绩差距缩小了 50%,以成绩衡量。 “反复测试是一种直接提高学习和思维能力的强大实践,对于那些起点学术背景较弱的学生来说尤其有帮助,”戈斯林说。
戈斯林和彭尼贝克(以及德克萨斯大学研究生杰森·费雷尔)于 2013 年在《PLOS ONE》杂志上发表了他们关于每日测验效果的发现,他们认为学生收到的“快速、有针对性和结构化的反馈”提高了反复测试的有效性。 而这给美国公立学校的学生带来了一个困境,根据美国进步中心最近进行的一项研究,三年级到八年级的学生平均每年参加 10 次标准化考试。 与此处介绍的教师和教授给出的教师编写的测试不同,标准化测试通常由商业出版公司出售给学校。 这些测试的分数通常在考试结束后几周甚至几个月才到达。 为了维护试题的安全性——并在以后的测试中再次使用试题——测试公司不提供逐项反馈,只提供一个相当不informative的数字分数。
标准化州级考试还有另一个特点,使其无法更有效地用作学习机会。 它们提出的问题绝大多数是肤浅的——这几乎不可避免地导致肤浅的学习。
如果目前美国使用的州级考试本身在它们提出的问题的难度和深度方面进行评估,那么几乎所有考试都会不及格。 这是当时在非营利性智库兰德公司担任行为科学家的昆·袁和维-阮·乐得出的结论。 在 2012 年发布的一份报告中,袁和乐评估了 17 个州提供的数学和英语语言艺术测试,根据测试对应试者提出的认知挑战对测试中的每个问题进行了评分。 研究人员使用了一种名为韦伯知识深度工具——由威斯康星州教育研究中心的高级科学家诺曼·韦伯创建——该工具确定了四个级别的心理严谨性,从 DOK1(简单回忆)到 DOK2(技能和概念的应用),再到 DOK3(推理和推断)和 DOK4(扩展计划和调查)。
袁和乐考察的州级考试中的大多数问题都在 DOK1 或 DOK2 级别。 作者使用 DOK4 级别作为衡量更深层次学习的问题的基准,按照这个标准,测试完全失败了。 袁和乐报告说,只有 1% 到 6% 的学生通过州级考试评估了阅读方面的更深层次学习; 2% 到 3% 的学生评估了写作方面的更深层次学习; 0% 的学生评估了数学方面的更深层次学习。 “测试衡量什么很重要,因为测试中的内容往往会推动教学,”斯坦福大学教育研究生院荣誉教授、学习和评估方面的国家权威琳达·达令-哈蒙德观察到。 她指出,当奖励和惩罚与测试结果挂钩时尤其如此,《不让一个孩子掉队法案》和各州自己的“问责制”措施就是这种情况。
达令-哈蒙德认为,《不让一个孩子掉队法案》的规定实际上迫使各州采用廉价的多项选择题测试,这些测试可以通过机器评分——她认为,这种测试几乎不可能衡量深度学习。 但是其他类型的测试可以做到这一点。 达令-哈蒙德与她的斯坦福大学同事弗兰克·亚当森合著了 2014 年出版的《超越气泡测试》一书,该书描述了一种非常不同的评估愿景:提出开放式问题的测试(答案由教师而不是机器评估); 要求学生发展和捍卫论点的测试; 以及要求应试者进行科学实验或撰写研究报告的测试。
达令-哈蒙德指出,在 20 世纪 90 年代,一些美国州已经开始实施此类测试; 随着《不让一个孩子掉队法案》的通过,这项努力结束了。 她承认,向更复杂的测试过渡的运动也因对后勤和成本的担忧而停滞不前。 尽管如此,以这种方式评估学生并非异想天开:其他国家,如英国和澳大利亚,已经在这样做了。 “他们的学生正在做真正的科学家和历史学家的工作,而我们的学生正在填写气泡,”达令-哈蒙德说。 “这太可悲了。”
她确实看到了一些乐观的理由:美国正在开发新一代测试,以评估学生在多大程度上达到了共同核心州立标准,这是一套已被 43 个州采用的识字和数学方面的学术基准。 达令-哈蒙德说,这些测试中的两项——Smarter Balanced 和大学和职业准备评估合作伙伴关系 (PARCC)——作为深度学习测试显示出了希望,她指的是加州大学洛杉矶分校国家评估、标准和学生测试研究中心 (CRESST) 的研究人员琼·赫尔曼和罗伯特·林恩最近进行的一项评估。 赫尔曼指出,这两项测试都旨在强调韦伯知识深度 2 级及以上的问题,学生总分中至少有三分之一来自 DOK3 和 DOK4 的问题。 “PARCC 和 Smarter Balanced 可能没有达到我们希望的水平,”赫尔曼去年在一篇博客文章中承认道,但“它们可能会带来一大步进步。”