2014年2月3日

智商测验测什么？：心理学家 W. Joel Schneider 访谈

W. Joel Schneider 是伊利诺伊州立大学的心理学家，他将时间平均分配在临床咨询项目和定量心理学项目之间。

本文发表于《大众科学》的前博客网络，仅反映作者的观点，不一定反映《大众科学》的观点

W. Joel Schneider 是伊利诺伊州立大学的心理学家，他将时间平均分配在临床咨询项目和定量心理学项目之间。他还运营着大学学习评估服务中心，社区中的学生和成年人可以在这里了解自己的认知和学业优势与劣势。他的主要研究兴趣在于评估心理评估。他还对帮助临床医生使用统计工具来改进案例概念化和诊断决策感兴趣。Schneider 撰写了 Assessing Psyche，这是我最喜欢的关于智商测试和评估的博客之一。当他同意接受我的采访时，我感到非常高兴。

1. 您对智力的定义是什么？

支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。

在个人层面，大多数人根据自己的形象来定义智力。工程师以描述优秀工程师的方式来定义它。艺术家以描述伟大艺术家的方式来定义它。科学家、企业家和运动员也都是如此。我的定义可能更像是描述一位优秀的学术心理学家。这些定义存在相当大的差异，但也存在相当大的重叠。正是定义中的冗余性证明了使用俗语“智力”的合理性。然而，各种定义中的不一致性是真实存在的，因此需要使“智力”一词保持歧义性，以便满足使用它的民众的需求。

在将智力描述为“民间概念”时，我并不是说它是一个需要升级的原始想法。许多民间概念都非常细致入微和复杂。它们不需要被翻译成正式的科学概念，就像民歌不需要被改写成歌剧一样。当然，正如民歌旋律已被用于歌剧中一样，民间概念和正式科学概念可以相互启发——但它们并不总是需要这样做。因此，我想消除长期以来存在的陈词滥调，即智力研究的子学科有些可疑，因为心理学家群体在智力的定义上始终存在分歧。他们不需要达成一致，我们也不应该期望他们达成一致。如果他们碰巧达成一致，他们达成一致的特定定义将是一个任意的选择，并且对任何其他心理学家（或任何人）都没有约束力。这就是民间概念的本质；它们的含义由使用它们的民众灵活、方便和集体地确定——而且民众可以改变他们的想法。

此外，说某件事是民间概念并不意味着它不是真实的或不重要的；我们用来描述人的许多词语——礼貌、酷、贪婪、庄严、运动等等——都指的是我们大多数人认为非常真实和非常重要的民间概念。智力也非常真实，而且非常重要！事实上，它在定义上很重要——我们用这个词来描述那些能够获得有用知识，并且可以使用逻辑、直觉、创造力、经验和智慧的某种组合来解决重大问题的人。

看到我刚才做了什么吗？我试图用一堆与我试图定义的概念一样模糊的术语来定义智力。当然，像有用知识和重大问题这样的术语是抽象概念，只有在特定的文化背景下才具有具体的含义。但是，如果我们对所有这些模糊的术语都有共同的理解，我们就能互相理解。如果我们属于同一个民族，我们的民间概念就能传达有用的信息。

说一种现象受文化束缚并不意味着这种现象可以意味着任何事物，或者它脱离了生物学和物理学。例如，运动的含义可能会因人的年龄、性别和过去的成就记录以及许多其他因素而有很大差异。即使运动的含义因语境而异，但其含义仍然被限制为指体育运动等身体活动中的技能。仅仅因为运动能力是一个民间概念，并不意味着它没有生物学决定因素。这只是意味着永远不会有一个适用于所有情况下的每个人的相同程度的运动能力生物学决定因素的单一列表。但是，一些生物学决定因素几乎会在每个列表中出现。对决定运动技能的因素进行有用的科学研究是完全可能的。智力也是如此。这是一个只有在人、情境和文化的交汇处才有意义的概念；然而，它的含义足够稳定，可以在个体中进行测量，并且可以构建关于它的有用理论。

以下是斯特恩（1914 年）的《智力心理测试方法》导言中一段特别清晰的段落

“经常有人反对说，在我们对智力本身的普遍本质有了确切的了解之前，智力诊断问题在任何情况下都无法成功解决。但在我看来，这种反对意见似乎是不相关的……我们测量电动势，却不知道电是什么，我们用非常精密的测试方法诊断许多疾病，而我们对这些疾病的真实本质知之甚少（第 2 页）。

没有必要将科学概念硬塞进像智力这样的民间概念中。随着认知能力科学的进步，智力的民间概念将会改变，因为这是民间概念的本质。看看霍华德·加德纳（Howard Gardner，1983 年）在调整和扩展智力含义方面取得了多么大的成就。比征求学者对定义的同意更重要的是鼓励富有创造力的研究人员做好他们的工作，从不同的角度探讨这个主题。也许在很久以后，我们可以整理出一个智力共识定义，如果这看起来是一个好主意的话。然而，一个多世纪以来，在智力的含义上缺乏共识并没有出现迫在眉睫的危机。可能永远也不会出现危机。

2. 智商测验测什么？

智商测验的价值更多地取决于它们与什么相关，而不是它们测量什么。智商测验最初并不是碰巧与重要结果相关的理论的操作定义。智商测验与如此多重要结果相关的原因是，它们经历了一个类似于自然选择的漫长过程。要让自己不再相信比内发明了第一个智力测验，最快的方法就是阅读比内自己的著作——他甚至向你展示了他从之前的学者那里复制来的测试项目！随着每次新的测试和每次测试修订，好的测试项目被保留，坏的测试项目被删除。好的测试项目与每个旨在使用的测试的目标人群的重要结果都具有高度相关性。坏的项目与除其他测试项目之外的任何事物都不相关。一些测试项目必须被丢弃，因为它们在不同的人口亚群中与结果的相关性存在显着差异，导致测试偏向某些群体而牺牲其他群体的利益。

因此，正如关于某种法国学者的老笑话所说，“它在实践中有效——但它在理论上有效吗？” 我并不是说理论在测试开发中没有发挥作用，也不是说理论没有加速测试改进的过程。然而，我们通常看不到失败的测试，其中许多测试都非常基于理论。因此，我们有成功的测试，我们有成功的测试开发者的想法。这些想法可能是大致正确的，但我们还没有关于进行智商测试时发生的认知过程的强大理论。当然，有许多优秀的研究试图描述和解释智商测试表现中涉及的过程。尽管这方面的文献浩如烟海且内容深刻，但我认为我们仍处于理论验证工作的初期阶段。

对好的智商测验应该测量什么的一个粗略描述可能是这样的。人们需要能够学习新信息。估计学习能力的一种方法是向一个人教授新信息并测量知识保留率。这对于简单信息（例如，回忆单词列表和复述简单的故事）效果很好，但很难设计一个测试来测量复杂信息的保留率（例如，记忆有关黎巴嫩政治的讲座），而又不会受到先前知识差异的污染。

学习能力可以通过测量一个人过去学到了多少知识来间接估计。如果我们的目的是测量原始学习能力，则这种方法很差，因为学习能力与学习机会、文化差异、家庭差异以及责任心和学习开放性方面的人格差异相混淆。但是，如果智商分数的目的是预测未来的学习，那么很难找到比过去学习的衡量标准更好的方法。知识测试是我们拥有的最可靠的绩效预测指标之一。

我们这个时代的历史中的社会重视从不完整的数据中进行概括并从抽象规则中推断出新信息的能力。智商测验需要以最大限度地减少拥有内容领域先前知识的优势的方式来衡量这种参与抽象推理的能力。

好的智商测验应该测量视觉空间处理和听觉处理的各个方面，以及短期记忆和处理速度。

3. 一个人的全球智商分数意味着什么？如果一个人的智商分数很低，您是否认为这意味着他们必然很笨？

智商是对许多结果的不完美预测指标。在能力合格的智商测试中得分非常低的人很可能在许多领域都遇到困难。但是，智商分数会在许多人身上失准，无论是哪个方向。

当智商测验失准时，我们应该对它生气吗？不应该。所有心理测量都是橡皮尺。它们的本质是会时不时地失准。如果分数是由于不称职造成的错误，我们应该对不称职的测试管理者生气。我们应该对使用智商测验来为压迫辩护的机构生气。但是，如果严重不正确的测试分数是由称职、有爱心和认真的临床医生获得的，我们必须接受知识是有限的。称职、有爱心和认真的临床医生理解这些限制，并将他们的不确定性纳入他们的解释以及基于这些解释的任何决策中。如果一个机构使用测试分数来做出高风险决策，则该机构应建立机制来识别其错误（例如，偶尔的重新评估）。

4. 一个人有可能非常聪明，但在智商测验中得分仍然很低吗？如果是这样，在哪些方面可能出现这种情况？

这种情况可能以无数种方式发生。语言和其他文化障碍会导致智力测验低估智力。未能从幼儿和患有多种精神障碍的人那里获得持续的最佳努力是很常见的。在这些情况下，除了最迟钝的临床医生之外，所有人都将认识到有些不对劲，并将采取适当的行动（例如，找到更合适的测试或停止测试，直到再次可能获得最佳努力）。不幸的是，一位迟钝的临床医生可能会造成很大的损害。

5. 智商测试的实际用途是什么？

当我们听到由于误导性智商分数导致的不正确决策时，几乎不可能不生气。公众和各种专家沉迷于我们可以废除标准化测试的幻想，这很常见。很容易同情他们的人文主义渴望以及他们对机械决策的反感，这些决策对每个人的个人情况视而不见。阅读比内的著作之所以重要，是因为在这些著作中，我们对如果允许这种愿望实现可能会发生的糟糕事情有了第一手的描述。

当我们面临在基于来自智商测验的虚假信息做“错误的事情”和在智商测验错误时通过忽略智商测验来做“正确的事情”之间做出决定时，我们应该做正确的事情，这似乎是显而易见的。不幸的是，我们并不生活在那个宇宙中，在那个宇宙中，我们总是知道什么是“正确的事情”。在这个宇宙中，存在普遍的不确定性，包括关于我们应该对什么感到不确定的不确定性。智商测验，尽管存在错误，但仍能揭示人们能力的一两层不确定性。在正确的人手中，它们效果相当好。它们大致正确的时候多于严重错误的时候。如果我们没有它们，我们将退回到更不可靠的决策方式。

通过向公众保证，很少有测试以真正机械的方式用于决策，就可以消除对标准化测试的大部分不安。作为使用标准化测试的专业人士，我们需要沟通我们实际在做什么。几十年来，整体判断和统计决策规则的使用一直处于持续的紧张状态。这是一种健康的状态。标准化测试为人类判断提供了一种锚点。单凭人类理性通常非常不擅长计算相关概率。如果没有标准化测试，关于诊断和获得服务的资格的艰难决策仍将做出，但它们的做出方式将更加随意。

另一方面，如果没有允许人类判断的合理保障措施，标准化测试就会变成专断的暴君。通常，当我们解释认知能力测试数据时，我们会按照数字所说的去做。有时，这些数字是对真相的良好初步近似，但需要进行少量调整。但是，有时，它们不是真相，甚至不是近似值。当不这样做是不合逻辑、不切实际或道德上令人发指时，我们有权推翻数字所说的。当然，如果过于频繁地援引这种特权，它本身可能会成为一个问题。为了重振一个人成熟谦逊的能力，我建议每隔几年重读保罗·米尔关于这个主题的想法（例如，Grove & Meehl，1996；Meehl，1957）。

6. 为什么智商测验要测量“常识”和晦涩的词汇？掌握无用的知识真的是“智力”吗？还是仅仅是无用的知识？

如果我们认为智商是对纯粹潜力的估计，那么将获得的知识测试纳入智商是一个非常糟糕的主意。我们有非常好的测试来估计各种原始认知能力（例如，工作记忆测试和处理速度测试）。我们有相当好的推理能力测试，这些测试不需要特定的内容知识。但是，如果我们认为智商是预测工具，那么没有比过去学习更好的未来学习预测指标了。此外，过去的学习不仅可以预测未来的学习，而且常常可以促进未来的学习。

精心设计的知识测试不仅仅测量对愚蠢事实的记忆。相反，它们测量对某些认知工具的理解，这些工具促进推理和问题解决。举一个明显的例子，基本数学事实（例如，6×7=42）的知识使一个人能够执行其他情况下不可能实现的推理壮举。以一种不太明显的方式，对某些单词、短语和故事的知识有助于推理。智商测验测量对精心挑选的单词、短语和故事的知识，因为拥有这些知识的人可能能够在困难情况下运用更好的判断力。

单词

某些词汇使我们能够简洁地交流复杂的想法，并使我们意识到否则可能会被我们忽略的区别。在某些文化中，个人勇敢是一种主要的优点，而懦弱则应不惜一切代价避免。在这种背景下，拥有区分令人钦佩的无畏（英勇、勇敢、英勇）和愚蠢的无畏（鲁莽、轻率、自负）的词语具有很大的优势。也许更重要的是可耻的恐惧（胆小、懦弱、懦夫）和明智的恐惧（谨慎、审慎、精明）之间的区别。了解这些词语可以让一个人与同龄人交流对谨慎的需要，而不会被指责为懦弱。否则，如果没有体面的方式来谈论谨慎，体面的人就别无选择，只能选择愚蠢和自我毁灭。我在这里可能为了效果而夸大了我的论点，但毫不夸张地说，单词是强大的工具。没有这些工具的人处于严重劣势。

短语

一种文化的集体智慧被收集在引语（“一个伟大地区分学者和战士的国家，其思考将由懦夫完成，其战斗将由傻瓜完成。”）、陈词滥调（“留得青山在，不怕没柴烧。”）和口号（“说话要温和，但要手持大棒。”）中。那些不知道谚语（“谨慎是勇敢的最好部分。”）含义的人必须通过反复试验（即，主要是错误）来自己弄清楚。

谚语也是工具，是小的认知增强器。当然，你可以用你的双手徒手钉钉子，但即使是最强壮的手也无法与锤子竞争。当然，选择哪个谚语适合这种情况仍然需要判断力。锤子很棒——但不适合拧螺丝。

故事

历史上的大多数事件都会立即被遗忘，即使是历史学家也会遗忘。那些被记录下来的往往是重要的。那些被重复和记住几个世纪的往往包含对文化至关重要的东西。例如，“皮洛士式胜利”这个短语可能不广为人知或使用，但它在受过教育的读者中幸存下来，因为它使用历史事件以一种引人入胜且简洁的方式表达智慧。历史上的某些关键事件可以作为我们决策者的模板（例如，拿破仑入侵俄罗斯、内维尔·张伯伦绥靖希特勒、越南战争是“泥潭”）。在民主国家，我们大多数人拥有许多好的模板供借鉴至关重要。如果不深入了解早期罗马共和国的历史，乔治·华盛顿可能不会看到两届任期后放弃权力的智慧。如果不深入欣赏历史，他的同代人就不会称华盛顿为“美国辛辛纳图斯”，并以他的名字重新命名俄亥俄州的一个新城市以纪念他。选民从抽象意义上理解任期限制的存在是有充分理由的，这是一回事。对于一个共和国来说，要做到能够防止独裁者出现，它必须有长期以来尊重强大而受欢迎的领导人自愿下台的传统。

结晶智力可视化

7. 所谓的“流体智力”——当场解决新问题和推理——在所有儿童中都以相同的程度测量流体智力吗？

没有心理或学业测试在所有儿童中都以相同的程度测量任何事物。诚然，精心设计的抽象推理测试减少了拥有特定内容知识的需求。然而，参与抽象推理的过程本身是后天习得的，并且深受文化的影响。詹姆斯·弗林（James Flynn）对此观点最为清晰。衡量抽象推理能力是正确的，但将从事抽象推理的能力和意愿视为与许多重要的具体文化现实脱节是错误的。有些文化必须强调日常生存的现实和当下，而不是永不发生的假设和可能。

古希腊文化在其对抽象的欣赏方面非常奇怪（虽然不是独一无二的——印度是许多抽象概念的发源地，阿拉伯学者及其占位阿拉伯数字为我们提供了管理抽象概念的终极工具：代数。）。事实是，大多数古希腊人可能也不太关心抽象。当希腊哲学家开始系统地探索抽象领域时，这是一个危险的领域。苏格拉底和他那些疯狂的问题被视为真正的威胁。

我们的抽象推理能力是进化时间尺度上最近的创新。就能力而言，它是一个半生不熟且充满漏洞的软件——它很脆弱、不一致、容易出错，并且很容易被各种奇怪的偏见所推翻。它会因有点累、分心、醉酒、担忧、生病或受伤而中断……这样的例子不胜枚举。系统中的薄弱环节可能是极易受损的工作记忆/注意力控制机制。几乎每种心理障碍，从抑郁症到精神分裂症，都与这些系统的缺陷和效率低下有关。

与我们大脑强大的视觉信息处理系统这一工程奇迹相比，计算机科学家相对容易设计出比我们大脑拥有的逻辑处理器更好的逻辑处理器。然而，在这个时代，我们社会中掌握抽象工具的成员可以利用他们的优势来获得前所未有的财富水平。对于我们这些从科学探索和艺术表达中获得深刻满足感的人来说，它们也非常方便。

8. 您认为高智商还是高求知欲更重要？

智商、好奇心、纪律性和成就之间的关系就像长度、宽度、深度和体积的关系。

9. 智商与创造力产出之间有什么关系？

“[我]写的东西比我聪明。因为我可以重写它。”

我对苏珊·桑塔格的这句引言很感兴趣，这是我关注的某人在推特上转发的。然后我找到了并爱上了整篇文章。高智商固然好，而且有大量证据表明它与创造力产出显着相关。另一方面，许多高智商的人未能创造出任何东西，而许多智力中等的人却取得了持久的伟大成就。桑塔格的洞察力表明了我们如何超越我们的局限性。

10. 您认为多动症是否被过度诊断了？

许多公众担心多动症不是一种真正的疾病：它只是懒惰的父母和坏老师给孩子用药的借口……这些孩子本质上是正常的，但可能有点精力充沛，有点难以管教。公众的担忧是对的！我们不想错误地给正常儿童贴上标签，给他们他们不需要的药物……但是，多动症是一种真正的疾病。如果你曾经和一个患有严重多动症的孩子一起工作过，你就会知道，不仅仅是精力充沛阻止孩子交朋友、在学校表现良好以及为成年生活做准备。

正如我们担心错误地给没有多动症的孩子贴上标签和过度用药一样，我们也应该担心未能识别出确实患有多动症的孩子。这些孩子也被错误地贴上了标签。他们被称为懒惰。他们被称为没有动力。他们被称为不负责任。如果他们遵守规则，他们被称为心不在焉。如果他们不遵守规则，他们就被称为一无是处（甚至更糟糕）。随着时间的推移（在许多情况下），这些术语——懒惰、没有动力、不负责任和一无是处——是他们开始接受并给自己贴上的标签。当他们成年时，他们通常已经有了二三十年的失败计划和失败的关系。他们的多动症在他们寻求帮助时才首次被发现——不是为了他们的冲动，不是为了他们的注意力问题——而是为了他们的抑郁症。我们需要善待所有儿童。目前评估多动症的方法显然不是最佳的，但如果应用得当，效果还是相当不错的。目前，我（与许多其他学者一起）正在努力寻找更好的多动症评估方法。

11. 请您介绍一下您的软件“Compositator”。

Compositator，尽管它的名字听起来很傻，但它是我多年心血的结晶。它是一个演示项目，展示了我认为下一代测试评分和解释软件应该具备的各种功能。我希望主要认知电池的下一个版本尽可能多地借鉴它。软件手册列出了所有需要的公式。

Compositator 之所以得名，是因为它能够创建自定义综合分数，从而可以更有效、更可靠地使用所有评估数据。这是一个有用的功能，但远非最重要的功能。Compositator 对心理评估的艺术和科学的主要贡献在于，它使临床医生能够提出和回答比以前更广泛的关于个体的问题。它可以做到这一点，因为它不仅计算有关自定义综合分数的丰富信息，而且还计算官方和自定义综合分数之间的相关性。这个看似简单的功能产生了许多新的和令人兴奋的解释可能性，从简单的回归到路径分析和结构方程建模，应用于个体，并以用户友好的路径图和交互式图表呈现。

传统上，检测学习障碍的第一步是表明学业成就与预期之间存在差异，给定对一般推理能力的某种估计。无论他们是否意识到，使用预测成就方法来估计预期成就分数的评估专业人员都在使用简单的回归模型。单个预测变量（通常是智商）用于预测结果。不幸的是，这种方法通常涉及大量笨拙的表格和繁琐的计算。

该过程的第二步是确定可以合理地解释这种差异的相关预测变量（例如，快速自动命名、语音处理）。Compositator 使用户能够选择任何一组被认为与结果相关的预测变量。也就是说，在分析中包含其他预测变量应该使我们能够更充分地解释学业成果，并使解释更符合个体的情况。借助 Compositator 程序，用户还可以计算实际成就是否显着低于预测成就、与观察到的差异一样大的差异在估计人群中所占的比例，以及每个预测变量对学业成果的贡献程度。因此，Compositator 使用个人的 WJ-III NU 概况自动生成大量以前难以或繁琐地获得的信息。

Compositator 实现的一项创新是，可以自由地不仅包括认知预测变量，还可以包括其他学业成就变量作为预测变量。例如，在控制了相关认知能力之后，可以确定儿童的阅读理解问题是否可以合理地用阅读流利度或单字解码问题来解释。

除了基本的多元回归分析之外，Compositator 还允许用户使用路径分析来检查不同能力的直接和间接影响。例如，在控制了结晶智力之后，听觉处理几乎对每个年龄组的阅读理解都具有几乎微不足道的直接影响；但是，它通过单字解码技能具有显着的间接影响。识别出听觉处理和阅读理解之间以前隐藏的间接联系对评估数据的解释和干预计划具有重要的意义。Compositator 可以估计“假设情景”。例如，如果听觉处理技能提高 15 分，单字解码技能可能会提高多少分，进而阅读理解可能会提高多少分？

12. 您目前还在从事哪些其他工作？

人类在模式识别和理解复杂结构方面非常出色。不幸的是，人类（包括尤其是我）在概率思考方面非常糟糕。我创建了几个计算机程序，用作心理评估的解释辅助工具。我的方法是让计算机做它们最擅长的事情：计算。一旦相关的概率估计被计算出来，人类的判断力就会得到提升。
我正在写一本书，解释如何使用心理测量学来理解个体。
我正在制作一款软件，它扩展了 Compositator 的理念，并使其更加灵活。我希望它能够让你输入任何 SEM 模型，并将其应用于任何心理测量。
我正在进行研究，试图理解为什么自我评估的注意力与注意力的认知测量指标相关性如此之差。
我正在进行一系列研究，希望证明 Gs（处理速度）= Gt（感知速度/决策时间）+ 注意力流畅性（将注意力聚光灯从一个事物平稳地转移到另一个事物的能力）。

图片来源 #1: my.ilstu.edu; 图片来源 #2: assessingpsyche.wordpress.com; 图片来源 #: assessingpyche.wordpress.com