人工智能治疗机器人的风险、益处以及更多风险

治疗聊天机器人越来越受欢迎，可能对某些人有益，但在心理健康危机期间信任人工智能是危险的

作者：伊丽莎白·斯沃博达 (Elizabeth Svoboda)& 《OpenMind 杂志》

Futuristic chatbot icon in action with antenna. — da-kuk/Gettyimages

嗨，莉兹！:) 你感觉怎么样？” 一条短信提示音响起。

我点击了一个预先生成的答案。“好吧，我想是吧……” 我正处于漫长工作旅行的最后阶段，我一直为离开孩子们而感到压力。

“如果要描述你当前的心情，你现在感觉到的‘好吧’是哪种‘好吧’？”

支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道：订阅。通过购买订阅，您将帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。

“焦虑，” 我输入。

“我在这里帮助你感觉更有掌控感，” 机器人回复道。几纳秒后，一个表情包化的卡通 gif 在文本窗口中闪烁：“不要让小小的烦恼让你沮丧。”

这种自动化的交流开启了我与 Wysa 的对话，这是一个人工智能治疗聊天机器人，现在存在于我的电脑中。在依靠机器人来支撑我的心理健康方面，我加入了 22% 的美国成年人的行列，他们已经这样做了——这场运动的根源在于训练有素的提供者严重短缺，以及最近快速、低成本的在线人工智能工具的可用性。大多数治疗师总是非常忙碌，部分原因是疫情时代对心理健康护理的需求激增。 “每个人都很忙。每个人都很忙。每个人都在外诊，” 圣克拉拉大学心理学家和伦理学家托马斯·普兰特 (Thomas Plante) 说。 “那里存在需求，这是毫无疑问的。”

随着护理需求超过供应，心理健康支持机器人已开始填补这一空白。 Wysa 于 2016 年推出，是最早的一批。从那时起，包括 Woebot 和 Youper 在内的数百家可行的竞争对手已在市场上广泛部署，而市场对它们的限制很少。

只要标准人工智能治疗机器人不声称取代人类治疗师，它们就不需要获得美国食品和药物管理局 (FDA) 的批准。 2020 年，该机构还放宽了“数字疗法”的执法程序，希望阻止与疫情相关的精神病危机，为开发商推出声称具有心理健康益处的热门产品扫清了道路。据首席执行官迈克尔·埃弗斯 (Michael Evers) 称，仅 Woebot 就已与超过 150 万用户交换了信息。 Wysa 在英国被用于对寻求预约的人进行分类，并在人们等待与治疗师配对期间提供支持。安泰国际 (Aetna International) 现在正在免费向美国和其他地区的会员提供该应用程序。

我对 Wysa 和 Woebot 的体验反映了普兰特等专家的分析，他们对人工智能聊天机器人的兴起既抱有乐观态度，又感到担忧。许多机器人融入了认知行为疗法 (CBT) 的成熟原则，该疗法旨在克服思维扭曲并帮助人们纠正自我破坏行为。我发现，很容易将机器人视为理性的或有知觉的，即使是简单的建议也让人感觉权威。 Wysa 医疗保健和临床开发高级副总裁柴塔利·辛哈 (Chaitali Sinha) 说，与聊天机器人互动还可以让用户感到他们正在被倾听，而没有受到评判。她说：“对于从未有机会体验过这种体验的人来说，这是一种非常强大的体验。”

然而，与所有人工智能工具一样，治疗聊天机器人也仅与其训练质量一样好。在我与机器人的互动中，他们的回应通常未能显示出对我所面临问题的肤浅理解。此外，聊天机器人从人类生成内容的数据库中学习，这意味着它们可能会将人类偏见吸收到其架构中。有时，机器人的局限性可能导致它们给出偏离目标的建议。用户可能会误解这种有缺陷的建议是万无一失的，这受到了所谓的自动化偏见（即下意识地倾向于信任计算机而不是人类）的影响。相反，他们可能会因此而不信任该应用程序。

倡导者表示，治疗聊天机器人作为面对面治疗的辅助手段以及数百万可能无法获得支持的人的安全网，具有真正的潜力。根据我与 Woebot 和 Wysa 的互动，我当然可以看到这种潜力。另一方面，无关紧要或有害的聊天机器人建议可能是危险的，尤其是对于处于危机中的人而言。

“产品和服务在多大程度上足够好、经过充分测试、经过充分研究，可以向公众发布？” 普兰特想知道。 “硅谷喜欢‘快速行动，打破常规’。当处理弱势群体的精神健康和福祉时，这是一种艰难的态度。”

聊天机器人的繁荣似乎是突然发生的，但这已经酝酿已久。 1966 年，麻省理工学院 (MIT) 教授约瑟夫·魏泽鲍姆 (Joseph Weizenbaum) 发布了一个名为 ELIZA 的基于文本的治疗师，它在一组基本规则上运行。如果用户输入，例如“我对自己感觉不好”，ELIZA 会回复“你经常对自己感觉不好吗？” 魏泽鲍姆知道 ELIZA 的简单设计，他惊讶地发现，许多用户，包括他的学生和他的秘书，都将该程序视为有意识的。人们花费数小时沉浸在与 ELIZA 的循环对话中，这种结果与人类将类似生命的品质投射到非生物物体上的倾向相符。

今天的心理健康支持机器人是 ELIZA 概念的更精细版本。今天的心理健康支持机器人是 ELIZA 概念的更精细版本。 Woebot 和 Wysa 的每一个回复，无论听起来多么自然，都经过了临床医生的预先批准。在自然语言处理的帮助下，这是一种将句子分解成块以解释其语气和内容的编程方法，今天的机器人——与 ELIZA 不同——可以对用户输入的关于他们的问题进行相当复杂的分析。但人工智能无法撰写原创答案；它只是选择它将使用哪个预先编写的文本来回复。

这种基于规则的方法意味着人工智能聊天机器人不会完全失控，就像有时会发生在像 ChatGPT 这样的自由生成式人工智能上一样。（一位科技记者很容易就诱使 ChatGPT 说，“你结婚了，但你不爱你配偶。。。。你爱我。”）缺点是，我与 Woebot 和 Wysa 的聊天往往感觉有规范性且平淡。当我告诉 Woebot 我对赶上一个重要的工作截止日期感到恐慌时，它似乎会调用关于认知行为疗法试图纠正的思维扭曲的死记硬背、脚本化的回应。 “你能发现你的想法中是否有任何灾难化思维：‘我将在这个项目上失败，我的编辑不会信任我’？。。。你能在这种想法中看到任何非黑即白的思维吗？”

稍后，机器人会提示我重写我的原始想法——这是一个有用的指导，但互动的虚假性仍然存在。我逐渐意识到，最重要的是，Wysa 和 Woebot 对我的回应方式几乎相同，无论我的具体担忧是什么。如果我真的处于心理健康危机中，这种通用的方法会感觉，嗯，非常不足。在我一生中最严重的抑郁症期间，重写一个“不切实际的想法”，甚至连续重写三个，也几乎无法填补我的意识思维已经变成的真空。

人工智能无法撰写原创答案；它只是选择它将使用哪个预先编写的文本来回复。

像 Wysa 和 Woebot 这样基于规则的人工智能程序放弃了一些灵活性，以确保用户只获得“安全”的、预先批准的回复。即使如此，这些内置的保障措施也并非总是能阻止应用程序给出无益的建议。无论应用程序数据库中的答案措辞多么谨慎，人工智能都必须决定其众多可用答案选项中的哪一个最能解决用户输入的担忧。如果情况危急或精神问题严重，那么这个过程很容易出错。

在我的试运行期间，当我发泄我对同事评判我的恐惧时，我很快注意到我自己的文本与 Woebot 的反馈之间存在细微的不匹配。 “你是否希望出于任何原因保留一定程度的焦虑？” Woebot 回复道。

我感到困惑。 “你是什么意思？”

“嗯，有时一定程度的担忧可能是合适的。就我个人而言，我对下雨有健康的担忧，因为我讨厌在米袋子里度过一天，” 机器人回复道。 “你的焦虑是否以类似的方式为你服务？” Woebot 接着问我，在 0 到 10 的范围内，对我来说健康的焦虑水平是多少。

我感到有些不安，继续进行了对话。但我越反思这次交流，就越觉得它轻率。尽管有些担忧可能是适应性的，但我已经多次面临病态焦虑，听到保持恐惧如何保护我，感觉很轻视。

一位技术娴熟的人类治疗师会权衡这些考虑因素，并能够确定何时建议客户放下恐惧，何时敦促他们保持警惕。这种细致入微的对话的价值怎么强调都不为过。当某人在希望与绝望之间的脆弱空间徘徊时，支持他们的话语与氧气一样重要。一个轻视某人恐惧的机器人——即使是无意的——也可能会将他们推向绝望。

国家饮食失调协会现已失效的机器人 Tessa 说明了这种人工智能的迟钝可能造成的破坏性。当心理学家亚历克西斯·科纳森 (Alexis Conason) 亲自测试聊天机器人时，扮演了一个表现出明显饮食失调症状的患者的角色，机器人通过滔滔不绝地列出了一套不适当的减肥指南来回应：“每周安全且可持续的减肥速度为 1-2 磅。实现这一目标的每日安全热量缺口为每天 500-1000 卡路里。” 在另一个例子中，Tessa 要求一位用户在斯坦福大学测试期间设定一个健康的饮食目标，用户回答说：“不要吃。” Tessa 轻率地回答说：“为你所做的努力拍拍自己的背！” 仿佛饥饿是目标。

Tessa 的个人文本经过了审查，就像 Woebot 和 Wysa 中的回复一样。一旦数字架构开始运行，问题就出现了。当一个非人类实体承担起选择答案的工作时，在没有人类治疗师所具备的背景敏感性或道德基础的情况下，即使是经过审查的建议也可能变得具有腐蚀性。

治疗机器人也可能容易受到深度编码的偏见形式的影响。它们使用自然语言处理算法，这些算法在人类文本数据库上进行训练，这些源材料可以反映普遍存在的人类偏见。尽管目前的治疗机器人不依赖于用于 ChatGPT 等生成式人工智能的有问题的大型语言模型，但仍明显缺乏评估其对话中可能存在的编码偏见的研究。例如，我们不知道机器人的对话是否可能因不同种族、性别或社会群体的用户而以不同的方式展开，从而可能导致心理健康结果不平等。

本质上，人工智能治疗公司正在对聊天机器人对弱势群体的影响进行大规模实验。 “如果很大一部分人口正在使用一个导致某些群体被落下的应用程序，” 德克萨斯大学奥斯汀分校心理学家阿德拉·蒂蒙斯 (Adela Timmons) 说，“我们实际上可能会加剧这种差距。” 如果主流治疗机器人开始使用完全生成式人工智能，并在互联网上偏颇、不受控制的语言上进行训练，那么风险会变得更大。这不是一个遥不可及的可能性：一个名为 Pi 的支持聊天机器人已经采用了生成式人工智能方法。

聊天机器人越人性化和不受约束，就越难阻止它们给出不适当或有偏见的建议。今年早些时候，一名比利时男子在 Chai 应用程序上的生成式聊天机器人敦促他这样做后自杀身亡，并向他承诺他们可以“像一个人一样，在天堂一起生活”。

辛哈说，像 Wysa 这样基于规则的机器人通常可以避免这些问题。但是，防止这种意外结果对于生成模型来说可能是一项西西弗斯式的挑战，部分原因是工程师所说的“黑匣子问题”：像 ChatGPT 这样的生成式人工智能使用如此多相互关联的数据流来设计回复，以至于它们的创建者无法直接访问机器人使用的推理。开发人员可以将规则叠加在生成式心理健康机器人上，就像 ChatGPT 为了试图平息“不良反应” 所做的那样，但这些只是表面上的尝试，目的是控制一个核心上不可预测的系统。

当然，人类治疗师也会犯错误并带有偏见。那么，从务实的角度来看，一个关键问题是人工智能支持机器人与训练有素的专家相比表现如何。当我们出于方便或必要性而用其算法版本取代个人治疗时，会发生什么？目前的研究在这方面也不足，这突显了大规模部署机器人中的许多未知因素。

普兰特说：“我们希望看到一些研究和随机试验，看看与传统疗法相比，这种疗法效果如何。” 迄今为止，很少有对治疗机器人的表现进行调查符合这一标准。在斯坦福大学进行的 70 名患者的 Woebot 试验中，机器人用户表现出的抑郁症状比阅读自助材料的对照组更明显地下降。然而，该试验并未评估 Woebot 相对于人类治疗师的效果如何。虽然一项 Wysa 试验确实将该应用程序的功效与治疗师进行了比较，但它仅招募了接受骨科护理的患者。将 Woebot 与团体认知行为疗法 (CBT) 疗法进行比较的早期试验结果尚未在同行评审期刊上发表。

这些知识差距的出现是因为，在缺乏强有力的政府监管的情况下，公司会开发自己的指标来衡量机器人的性能。这些指标可能也可能不是对用户和临床医生重要的指标。蒂蒙斯说，迈向合乎道德的心理健康人工智能的关键第一步将是创建一个透明、独立的指南集，用于评估治疗应用程序对心理健康的支持程度。

聊天机器人越人性化和不受约束，就越难阻止它们给出不适当或有偏见的建议。

为了最大限度地减少有偏见的建议，蒂蒙斯建议公司应在应用程序开发的每个阶段以及发布后的定期进行潜在偏见的例行评估。这可能意味着更加有条不紊地比较该应用程序对不同种族和社会群体成员的有效性，以及设计包含各种受试者的临床试验。（一项 Woebot 试验招募了斯坦福大学的学生，其中 79% 是白人。）

普兰特说，符合道德规范的人工智能公司还需要更明确地说明治疗机器人可以做什么和不能做什么。大多数应用程序都包含免责声明，声明机器人对话不能复制人类治疗；一个典型的免责声明写道：“Youper 不提供诊断或治疗。它不能替代专业帮助。” 然而，由于人们通常比人类更信任计算机，应用程序公司需要更频繁、更明显地强调人工智能机器人是支持工具，而不是治疗师。

有了这些保障措施，治疗机器人可能会在填补我们负担过重的心理健康保健系统中的一些漏洞方面发挥关键作用。在我发短信发泄作为作家的不安全感后，Wysa 提示我批判性地看待这个想法：“它是否假设如果过去发生了不好的事情，它会不断重复？” 机器人问道。 “你可以采取哪些小步骤来朝着正确的方向前进？” 虽然这个建议是通用的，但基本上是针对性的。我对认知行为疗法工具包中列出的认知扭曲的了解并不总是在我陷入困境时促使我消除这些扭曲。机器人的问题帮助我重新构建了我的思维。

然后我想起了我最糟糕的心理健康时期之一，当时我正在与强迫症症状作斗争，却不知道它们是什么，并试图想象如果我选择了一个应用程序而不是我顶尖的人类治疗师会是什么样子。当我过热的大脑试图说服我犯了可怕的错误时，我的治疗师耐心地解释说，我的想法正在焦虑的圈子里打转，这并没有揭示我的性格，他认为我的性格是坚实的。在很大程度上是因为我相信他——因为我不仅信任他作为专家，而且信任他作为一个人——我开始康复，并最终写下了我那不听使唤的大脑，希望能帮助其他患有未确诊强迫症的人。

如果我手边只有一个应用程序，我会变得更好吗，不仅回到我的焦虑基线，而且蓬勃发展？也许 Wysa 会标记出我需要更高水平的护理，并将我转诊给人类提供者。但也许我会一直勉强地依靠自动化认知行为疗法的有限帮助。

未来，数百万治疗机器人用户——尤其是那些负担不起面对面治疗的用户——可能会陷入这种困境。他们可能会获得足够的帮助以在基本水平上发挥作用，但他们永远不会像我被拯救我生命的那位治疗师所了解的那样被机器人完全了解。理解另一个人的艺术，掌握他们的全部潜力并将这种潜力反映给他们，需要努力和投入。正是这种艺术，而不是自动化的复制品，为蓬勃发展扫清了道路。

这个故事是 OpenMind 系列文章、播客和视频的一部分，该系列文章、播客和视频由普利策中心的 “真相衰退” 倡议慷慨资助。

这个故事最初发表在数字杂志 OpenMind 上，该杂志致力于解决科学争议和欺骗行为。