本文发表于《大众科学》的前博客网络,仅反映作者的观点,不一定反映《大众科学》的观点
费城—2011年夏天,我开始撰写一篇专题文章,内容是关于一本大多数人从未听说过的书——《精神疾病诊断与统计手册》(DSM),这是一本供精神科医生和临床医生参考的指南。DSM的大部分页面都包含描述不同精神障碍的症状列表(例如,精神分裂症:妄想、幻觉、言语紊乱等等)。DSM不仅定义了精神疾病,而且通常决定患者是否接受治疗——在许多情况下,保险公司要求在补贴药物或其他治疗方法之前,必须有官方的DSM诊断。
美国精神病学协会 (APA) 30 年来首次大幅修订 DSM,以使诊断更准确,并使该手册更便于用户使用(1994 年的 DSM-IV 与 1980 年的 DSM-III 没有显著差异)。该协会计划在 2013 年 5 月出版该手册的全新版本,DSM-5。
当我在报道我的专题文章时,该文章发表在《大众科学 MIND》杂志的五/六月刊,我花了很多时间与 APA 工作组的成员通电话——该工作组由精神科医生和研究人员组成,他们负责监督 DSM 的修订工作。本周末,我参加了在费城举行的 APA 年度会议,亲自听取了其中一些研究人员的发言,并进一步了解了 DSM-5。我特别对“现场测试”的结果感到兴奋——这是在全国各地的大学和诊所对新的 DSM-5 诊断进行的预演。现场测试主要关注一个问题:使用修订后的 DSM-5 诊断的不同精神科医生是否对同一患者得出相同的结论?如果他们得出相同的结论,则更新后的症状列表具有很高的“可靠性”——这在医学上是一件好事。如果不是,则新的诊断是不可靠的,并且修订是失败的。
关于支持科学新闻业
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻业 订阅。通过购买订阅,您正在帮助确保未来能够继续报道关于塑造我们当今世界的发现和思想的具有影响力的故事。
APA 尚未公布现场测试的结果,但在费城举行的年度会议上,该协会在周六的专题研讨会上对调查结果进行了预览。这是首次一窥许多人长期以来一直等待看到的极其重要的数据。
一些结果——以及演讲者呈现这些结果的方式——让我感到沮丧和担忧。
为了理解原因,首先讨论一些统计数据是有帮助的。我会尽量简化。APA 使用一种称为 kappa 的统计量来衡量不同诊断的可靠性。kappa 值越高,诊断的可靠性就越高,其中 1.0 代表完美的可靠性。APA 认为 kappa 值为 0.8 或更高的诊断具有奇迹般的可靠性;0.6 到 0.8 非常好;0.4 到 0.6 良好;0.2 到 0.4 “可以接受”,任何低于 0.2 的都属于不可接受的不可靠。低可靠性对于临床医生、患者和研究人员来说都是一个大问题:这意味着只有少数临床医生在诊断疾病时意见一致并且想要研究特定疾病的研究人员将很难找到真正患有所研究疾病的参与者。如果没人意见一致,就很难取得任何进展。
APA 的 DSM-5 工作组副主席 Darrel Regier 展示了各种 DSM-5 诊断的 kappa 值——这是现场测试中首次公开发布的结果。幸运的是,许多 DSM-5 诊断的 kappa 值看起来很强。例如,新的自闭症谱系障碍 (ASD) 的现场测试——它将 DSM-IV 中对自闭症、阿斯伯格综合症和其他发育障碍的诊断合并为一个类别——得出的 kappa 值为 0.69。然而,两个可怜的 kappa 值让我震惊了。广泛性焦虑症的 kappa 值约为 0.2,重度抑郁症的 kappa 值约为 0.3。
根据 APA 自己的标准,这些数字太低了——而且它们远低于先前版本的 DSM 中疾病的 kappa 值。Regier 和 APA 的其他成员强调,最新版本的现场测试方法比过去更加严格,并且早期版本的 DSM 中许多诊断的 kappa 值可能被夸大了。但这并没有改变 APA 面临一个问题的事实:其自身的数据表明,一些更新后的定义存在缺陷,以至于只有少数精神科医生在使用这些定义对同一患者进行诊断时才能得出相同的结论。而且 APA 只有有限的时间来解决这个问题。
尽管 APA 已经为 DSM-5 工作了 11 年多,但现场测试仅在去年才开始。在报道我的专题时,我问 APA 的成员,他们为什么等了这么久才进行现场测试。毕竟,距离 DSM-5 的计划出版日期仅剩一年,而我们仍然不知道修订后的诊断是否可靠,以及它们是否比以前的版本有了真正的改进。我从未收到令人满意的答案
为了做一个类比,考虑一个面包师,他花了几个月的时间在脑海中开发一个终极巧克力蛋糕的配方,然后在必须交付蛋糕的前一天,才最终尝试这个配方,结果发现蛋糕味道糟糕透顶。他只有一天的时间来想出其他办法。APA 也将自己置于类似的绝境。新手册的最终草案将于今年 12 月到期,这意味着如果 APA 想按计划出版,它只有不到 8 个月的时间来实施从现场测试中学到的东西。新的现场测试将需要数年时间来安排,并且至少需要额外一年的时间来进行。要么该协会将 DSM-5 的出版推迟数年,再次修订诊断并进行新的现场测试——要么它按照目前的计划进行,并出版一本存在重大缺陷的 DSM-5。
如果 APA 有行动计划——除了像“继续分析我们的数据”这样的模糊陈述之外——该协会在专题研讨会上并没有明确说明。演讲者似乎并没有被令人震惊的结果所困扰。更糟糕的是,他们有时显得漠不关心。
美国精神病学研究所研究与教育中心的 Eve Moscicki 在专题研讨会上做了最后一次演讲。Moscicki 帮助协调了诊所的现场测试。出于某种原因,Moscicki 决定在她分配的时间里,花一半以上的时间谈论不相关的细节——例如,一个好的技术支持团队的好处——然后才谈到实际的现场测试结果。最后,她展示了一些彩色条形图,显示临床医生和患者对新的 DSM-5 诊断的看法。这些条形图显示了有多少百分比的受访者认为新的定义“非常有用”、“很有用”、“中等有用”、“稍微有用”或“完全没用”。信息图爱好者都知道,条形图是一种呈现此类数据的弱方式——很难同时对这么多类别进行视觉比较。饼图会更清晰。**(请参阅下面的“编辑添加”部分,了解更正和澄清)。**
“嗯,是的,在我看来,大多数人认为它非常有用或极其有用,”Moscicki 在谈到其中一个修订后的诊断时说。
“那是错误的,”我站起来说。“37% 加 7% 不等于超过 50%。” 事实上,大多数受访者认为新标准介于中等有用和完全没用之间。“你不能用条形图来呈现这些数据。这具有欺骗性,”我补充道。这已经是 Moscicki 第三次犯这样的错误了,她高估了正面回应的百分比,并掩盖了 DSM-5 在结果中明显的缺点。
“嗯,嗯,记住这只是初步的……”
“完全具有欺骗性,”我说。我把背包甩到一边肩膀上,走出了房间。
回想起来,我不应该称该图表具有欺骗性,尽管我仍然认为数据的呈现方式很差。我希望我能坚持到演讲的最后几分钟,但我太沮丧了,无法在房间里待更久。也许我反应过度了。然而,在反思了这段经历之后,我仍然真诚地对 DSM 的未来感到担忧。
Moscicki 有一件事说对了:这只是初步的。在 APA 正式公布现场测试的结果之前,协会以外的任何人都无法完成适当的分析。到目前为止,我所看到的情况让我相信,该协会应该预料到比已经承受的批评更强烈的批评。公平地说,APA 根据早期的批评意见对 DSM-5 的草案进行了修改。但草案仅在未来六周内接受评论。到目前为止,APA 以外的任何人都无法访问现场测试数据,我毫不怀疑许多研究人员会抓住并仔细审查这些数据。我只希望他们发现的缺陷能让 APA 再次审视——并更仔细地审视。
**编辑添加**
有些人指出,在呈现我讨论的数据时,饼图不一定比条形图更清晰。这是真的。我现在意识到我没有正确地解释我的意思。让我困扰的是 Moscicki 在进行估算。她用眼睛观察不同条形图代表的百分比,并在脑海中将它们加在一起,以查看“很有用”和“极其有用”的百分比加起来是否大于其余类别的总和。相反,她应该在演示之前,以图形方式将数据组合成两个类别,以便进行清晰的比较——无论是饼图中的两个扇形还是两个条形图。当时我脑海中闪现的解决方案是一个饼图,其中代表“很有用”和“极其有用”百分比之和的扇形明显小于饼图的一半,而代表“中等有用”、“稍微有用”和“完全没用”类别之和的扇形明显大于一半。从大局来看,这个特殊的点是一个小问题——但这却是压垮骆驼的最后一根稻草。我的挫败感在整个专题研讨会期间一直在累积,我无法忍受我认为是对关键数据轻率的处理方式.