本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
我生活中的人们似乎都正被各种评估所包围。他们被委派评价他人,并在工作中接受评价。他们担任奖学金申请的遴选委员会成员,或仔细研究自己被拒申请的评估报告。他们正在申请大学,或者参加关于如何最好地重塑大学录取过程的小组讨论。然后,他们眼睁睁地看着这些评估被用来塑造某人的未来,无论是他们自己的未来,还是另一端神秘的学生和专业人士的未来。他们似乎都沉浸在工具和数字的海洋中,这些工具和数字既丰富又抽象。我们都告诉自己,尽管这个过程可能看起来很抽象,但总比没有过程好。这是一种试图公平的尝试。把它想成是公平的,真是太诱人了。
我们得到的工具是如此定制化、如此具体,以至于感觉它们一定能发挥作用,以梳理出我们如此努力想要衡量的细微指标。从旨在排除所有无关偏见机会的约束和类别中进行选择;这些工具只有一个任务要做,所以它们一定在完成任务,对吧?我们希望我们用来评估同事绩效的工具能够发挥作用,以评估绩效。大学的入学考试将人们分为准备就绪和尚未准备就绪且可以从一些帮助中受益的类别,我们希望最终能够帮助这两个类别的人充分发挥他们的潜力。《哈利·波特》中的分院帽应该在新学期开始时,在新生的班级中播下足够的青春期怀疑和内群体/外群体动态的种子,为足够精彩的学年奠定基础。虽然最后一句是讽刺,但它可能是列表中唯一一个完成其描述工作的评估工具。
我的一位同事正在共同组织一次会议,她的部分职责包括从提交的摘要池中选择发言人。他们创建了一个评分系统,并指派多位相关专家作为评审员对其进行评估,并确保每个摘要都呈现在多组人面前。这一切都感觉非常有目的性和公平性。然后评分结果出来了。在一个满分 100 分的评分系统中,许多摘要的评审员之间的差异超过 40-50 分。一旦他们深入研究数据,他们发现评审员分为两大类。一类评审员从 100 分开始评分,只扣除他们提出的问题/疑虑的分数。他们的分数往往大多在 80 分及以上。另一类评审员从白板开始,让申请人从底部开始赚取每一分,最终得到的分数大多在 60 分左右。在个别评审员之间,该工具的应用相当一致。但是,将跨评审员的分数合并,总分很快变得毫无意义。我上次查看时,他们正在研究根据每个评审员的平均分来调整分数的方法。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关当今塑造我们世界的发现和思想的具有影响力的故事的未来。
这绝非个例。发表在《应用心理学杂志》上的一项研究发现,高达 62% 的工作绩效评级差异与评审员的特殊性有关,而不是与被评审的绩效有关。评审员效应比任何其他因素的总和都强。在他们的著作《关于工作的九个谎言》中,作者马库斯·白金汉和阿什利·古德尔将这个过程比作评委对花样滑冰运动员的评分。即使在这个任务中,基于看似客观的因素,如旋转次数以及起跳和落地时的冰刀侧面,评委之间的差异也可能很大。与花样滑冰技术的相对具体的属性相反,作者感叹工作绩效衡量标准如何要求我们根据“领导力”和“政治手腕”等模糊概念来评价彼此。突然间,为这些会议摘要找到一个数学缩放系统似乎是一个容易解决的问题。
很明显,这种分类很重要。它可以决定谁获得加薪、谁获得晋升以及谁必须在开始大学学习之前参加补习班。适用的标签通常会贴上。我的一个朋友在一家公司工作,该公司使用评分系统,该系统在多个类别中给员工的年度评分在 1-5 分之间。对于这些员工来说,晋升和加薪取决于他们累积的 4 分和 5 分的数量。但是,由于公司希望限制加薪和晋升,他们对这些评分设置了上限。每个部门只有这么多 4 分和 5 分可以分配。给一个人 5 分意味着它不能给另一个人。同一部门的经理最终会争先恐后,试图防止过多的高评分流向单个部门。当然,这更多地与感知到的公平感有关,而不是与实际绩效有关。白金汉和古德尔在他们的书中引用了类似的系统,他们观察到这些工具不再与评估绩效有关,而是成为控制资源分配的一种手段。
但对于员工来说,这些评分和标签成为他们记录的一部分,作为他们绩效的所谓衡量标准。我的朋友感叹他的同事们花费数小时努力提供自己工作在令人抓狂的抽象类别中的证据,花费午餐时间推测他们的经理“真正想要的是什么”。另一方面,经理正在考虑如何在各个部门之间分配一组任意的和预定义的数字——那些详细的绩效报告可能早已被遗忘。
从高等教育方面来看,入学考试和评估也受到了类似的审查。旨在识别将从补习工作中受益的学生的工具应该表明,参加该课程的学生最终比没有参加该课程的类似学生更成功。但是,就像没有听到“今年不适合你获得 4 分”而是听到“你缺乏潜力”的员工一样,这些学生似乎也从其他方面听到了一些声音。一项研究发现,被告知需要补习课程的学生中,有 1/3 的学生最终从未注册该课程的任何课程。他们中只有 60% 的人甚至注册了推荐给他们的课程。如果被告知需要补习工作的学生不是因为课程作业而未能完成课程或退学,而是因为他们甚至没有报名就退出了系统,那么您甚至可以获得什么样的有效性衡量标准?另一份2016 年报告发现,GPA 是比旨在准确评估绩效的考试(SAT、ACT、ACCUPLACER)更好的课程绩效预测指标。如果结果阻止学生甚至尝试,您如何判断安置工具是否有效?对于告诉学生和员工一件事,但最终传递的信息是“也许你应该回家”的分院帽,您该怎么办。