通过声音诊断新冠肺炎

研究人员正在探索利用人们的声音来诊断冠状病毒感染、痴呆症和抑郁症的方法

三月份,随着冠状病毒大流行的惊人范围开始变得清晰,世界各地的官员开始动员公众加入战斗。医院要求当地公司捐赠口罩。研究人员呼吁从新冠肺炎中康复的人捐献血浆。在以色列,国防部和一家名为 Vocalis Health 的初创公司要求人们捐献他们的声音。

Vocalis 是一家位于以色列和美国的语音分析公司,此前曾开发一款智能手机应用程序,通过监听用户说话时是否出现呼吸急促的迹象,来检测慢性阻塞性肺疾病的急性发作。该公司希望对新冠肺炎做同样的事情。新冠病毒检测呈阳性的人只需下载 Vocalis 研究应用程序即可参与。每天一次,他们启动应用程序并对着手机说话,大声描述图像并从 50 数到 70。

然后,Vocalis 开始使用其机器学习系统处理这些录音,以及新冠病毒检测呈阴性的人的声音,试图识别该疾病的声音指纹。到仲夏,该公司已拥有 1500 多个声音样本和一个数字新冠肺炎筛查工具的试点版本。该工具目前正在世界各地进行测试,并非旨在提供明确的诊断,而是帮助临床医生对潜在病例进行分诊,识别可能最需要检测、隔离或面对面医疗护理的人。“我们的 AI 算法能提供帮助吗?”Vocalis 的总裁兼首席执行官塔尔·温德罗问道。“这并非侵入性的,也不是药物,我们没有改变任何东西。你所需要做的就是说话。”


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将有助于确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。


他们并不是唯一竞相寻找新冠肺炎声音生物标志物的人——至少还有三个研究小组正在进行类似的项目。其他团队正在分析新冠肺炎咳嗽的录音,并开发旨在检测某人何时佩戴口罩的语音分析算法。

这标志着年轻的声音诊断领域多么渴望取得成就。在过去的十年中,科学家们利用人工智能 (AI) 和机器学习系统来识别各种疾病的潜在声音生物标志物,包括痴呆症、抑郁症、自闭症谱系障碍甚至心脏病。他们开发的技术能够识别出患有某些疾病的人在说话方式上的细微差异,世界各地的公司也开始将其商业化。

目前,大多数团队都采取缓慢的、循序渐进的方法,设计定制工具用于医生办公室或临床试验。但许多人梦想更广泛地部署这项技术,利用消费产品中普遍存在的麦克风来识别疾病和障碍。这些系统有一天可以让流行病学家利用智能手机追踪疾病的传播,并将智能音箱变成家用医疗设备。“在未来,你的机器人、你的 Siri、你的 Alexa 会简单地说,‘哦,你感冒了,’”奥格斯堡大学和伦敦帝国学院的语音和情感识别专家比约恩·舒勒说,他正在领导一项新冠肺炎研究。

但自动化语音分析仍然是一个新兴领域,存在许多潜在的陷阱,从错误的诊断到个人和医疗隐私的侵犯。许多研究仍然规模小且是初步的,从概念验证到产品的转变并非易事。“我们正处于这个领域的早期,”舒勒说。

有些疾病会导致明显的发声扭曲;想想过敏患者鼻塞的明显症状。但许多科学家认为,由于人类语言的复杂性,语音分析可能有助于识别范围广泛的疾病。

语音信号

说话需要协调许多解剖结构和系统。肺部将空气输送到声带,声带产生的声音由舌头、嘴唇和鼻腔等结构塑造。大脑以及神经系统的其他部分,有助于调节所有这些过程并确定某人所说的话。影响这些系统中的任何一个的疾病都可能在人的言语中留下诊断线索。

机器学习为科学家提供了一种快速、大规模检测异常的方法。研究人员现在可以将数百或数千个声音样本输入计算机,以搜索区分患有各种疾病的人和未患病的人的特征。

该领域的早期工作主要集中在帕金森病上,帕金森病对言语有众所周知的影响——并且目前尚无明确的诊断测试。这种疾病会导致多种运动症状,包括震颤、肌肉僵硬以及平衡和协调问题。控制的丧失延伸到参与言语的肌肉;因此,许多帕金森病患者的声音微弱而柔和。“这是你可以用人耳听到的事情之一,”华盛顿州柯克兰市 EvergreenHealth 的神经精神病学家礼萨·侯赛尼·戈米说,他已经确定了与几种神经退行性疾病相关的声音特征。“但是,如果你能获得 10,000 个样本和一台计算机,你就能获得更准确的结果。”

十多年前,现在在英国伯明翰大学从事机器学习和信号处理研究的马克斯·利特尔开始研究语音分析是否可以帮助医生做出困难的诊断。在一项研究中,利特尔和他的同事使用了 43 名成年人的录音,其中 33 人患有帕金森病,他们说的是音节“啊”。他们使用语音处理算法分析了每段录音的 132 个声学特征,最终确定了 10 个——包括诸如气息声和音高和音色中的颤抖振荡等特征——这些特征似乎最能预测帕金森病。仅使用这 10 个特征,该系统就能以近 99% 的准确率识别出来自帕金森病患者的语音样本。

利特尔和该领域的其他人也证明,某些声音特征与帕金森病症状的严重程度相关。利特尔说,这些系统尚不够强大,无法在常规临床实践中使用,但存在许多潜在的应用。语音分析可能为监测帕金森病高风险人群提供一种快速、低成本的方法;筛查大量人群;甚至可能创建一种电话服务,可以远程诊断无法接触到神经科医生的人。患者可以使用智能手机应用程序等形式的家庭技术来跟踪自己的症状并监测他们对药物的反应。“这种技术可以实现对某人症状如何变化的高速快照,几乎是连续的快照,”利特尔说。

研究人员现在正在努力识别其他类型神经退行性疾病的基于语音的生物标志物。例如,加拿大多伦多的三位科学家使用了来自 250 多人的声音样本和文字记录,来识别可能或很可能患有阿尔茨海默病的人与未患病的人之间的数十个差异。在参与者中,患有阿尔茨海默病的人倾向于使用较短的词、较小的词汇量和更多的句子片段。他们还会重复自己,并使用更高比例的代词(如“它”或“这个”)代替专有名词。“这可能表明他们只是不记得事物的名称,因此不得不使用代词代替,”多伦多大学的计算机科学家弗兰克·鲁德齐茨说,他领导了这项研究。

当系统将这 35 个声音特征放在一起考虑时,它能够以 82% 的准确率识别出阿尔茨海默病患者。(鲁德齐茨说,此后这一准确率已提高到大约 92%,并指出错误往往或多或少均匀地分布在假阴性和假阳性之间。)“这些特征加起来就像痴呆症的指纹,”鲁德齐茨说。“这是一个非常复杂且隐藏的模式,我们很难在表面上看到,但机器学习可以在给定足够数据的情况下将其挑选出来。”

由于其中一些声音变化发生在神经退行性疾病的早期阶段,研究人员希望语音分析工具最终可以帮助临床医生更早地诊断出此类疾病,并有可能在其他症状变得明显之前进行干预。

然而,目前,这种想法在很大程度上仍然是理论性的;科学家们仍然需要进行大规模、长期、纵向的试验,以证明语音分析实际上可以比标准诊断方法更早地检测到疾病。

一些临床医生指出,仅靠语音分析很少能得出明确的诊断。“我通过听别人的声音学到很多东西,”密歇根大学安阿伯分校的喉科医生诺曼·霍吉基安说。“我以此为生。但我会将其与病史以及我的检查结合起来。评估的这三个部分都很重要。”

该领域的研究人员强调,目标不是取代医生或创建独立的诊断设备。相反,他们将语音分析视为医生可以用来为他们的决策提供信息的工具,作为他们可以监测的另一种“生命体征”或他们可以订购的测试。“我的愿景是,收集语音样本将变得像验血一样普遍,”里斯本大学的口语处理研究员伊莎贝尔·特兰科索说。

扩展应用

许多语音分析初创公司——包括多伦多公司 Winterlight Labs(由鲁德齐茨共同创立)和亚利桑那州斯科茨代尔的 Aural Analytics——现在正在向制药公司提供他们的软件。许多公司正在使用该技术来帮助评估参加临床试验的人员是否对实验性治疗有反应。“使用语音作为神经系统健康变化的更微妙的替代指标,你可以帮助推动药物通过终点线,或者至少尽早识别出那些没有希望的药物,”Aural Analytics 的联合创始人兼首席分析官维萨尔·贝里沙说。

神经退行性疾病仅仅是个开始。科学家们已经在患有神经发育障碍的儿童中发现了独特的言语模式。在 2017 年的一项小型研究中,舒勒和他的同事确定,分析十个月大婴儿咿呀学语的算法可以相当准确地识别出哪些儿童将来会被诊断为自闭症谱系障碍。该系统正确分类了大约 80% 的自闭症儿童和 70% 的神经正常儿童。

研究人员还发现,许多患有注意力缺陷多动障碍的儿童比神经正常的同龄人说话声音更大、语速更快,并且表现出更多的声音紧张迹象。柏林的 PeakProfiling 公司目前正在开发一种临床语音分析工具,该公司希望该工具可以帮助医生诊断这种疾病。

但一些临床医生对这些系统真正能提供多少有用的信息持怀疑态度。“其中一些有点言过其实,”康涅狄格州费尔菲尔德圣心大学的沟通障碍专家瑞亚·保罗说。她指出,患有神经发育障碍的儿童通常有许多容易观察到的行为症状。

此外,目前尚不清楚这些算法是否真的在识别自闭症谱系障碍等特定标记,还是仅仅在捕捉非典型大脑发育的一般迹象——甚至只是言语中的短暂异常。“发育是一条蜿蜒曲折的道路,并非每个一开始看起来像患有自闭症的孩子长大后都会成为患有自闭症的成年人,”保罗说。她补充说,即使科学家确实识别出高度可靠、特定的声音生物标志物,它也应该仅用于识别可能受益于更彻底评估的儿童。“仅凭这一点,尤其是在生命早期,就不应该足以给孩子贴上标签。”

科学家们也在将这项技术转向精神疾病。世界各地的许多团队已经开发出可以识别出往往以抑郁症为特征的缓慢、停顿多、单调的言语的系统,其他人也已经识别出与精神病、自杀倾向和双相情感障碍相关的声音生物标志物。

“声音在传递我们的情感信号方面非常丰富,”纽约大学的精神病学家查尔斯·马尔马尔说。“速率、节奏、音量、音高、韵律[重音和语调]——这些特征告诉你患者是情绪低落和沮丧,还是焦虑和不安,或者他们是烦躁不安和躁狂。”

在自己的工作中,马尔马尔使用机器学习识别出 129 名男性退伍军人中与创伤后应激障碍 (PTSD) 相关的 18 个声音特征。通过分析这些特征——主要是缓慢、平淡、单调的言语指标——该系统可以以近 90% 的准确率识别出哪些退伍军人患有 PTSD。

马尔马尔和他的同事们现在正在将他们的研究扩展到妇女和平民;如果该团队能够推广这些发现,马尔马尔认为这项技术可能是一种快速识别可能需要更彻底的精神病学评估的人的有用方法。“第一个实际应用将是 PTSD 的高通量筛查,”他说。“你可以在几个小时内完成 4,000 次语音筛查。”

类似的消费者应用程序已经开始进入世界。美国退伍军人事务部正在研究一款监测心理健康的应用程序是否可以识别出正在经历心理困扰的军人。这款智能手机应用程序由马萨诸塞州波士顿的会话指导和分析公司 Cogito 开发,收集用户习惯的元数据——例如他们给其他人打电话或发短信的频率——并分析他们在手机上留下的语音备忘录。

甚至可能存在与似乎与言语无关的疾病的声音生物标志物。在 2018 年的一项研究中,科学家们分析了 101 名计划接受冠状动脉血管造影术的人的声音样本,发现某些声音频率模式与更严重的冠状动脉疾病有关。

目前尚不清楚是什么解释了这些差异。“我们很难理解其机制,因为它并不明显,”明尼苏达州罗切斯特市梅奥诊所的心脏病专家阿米尔·勒曼说,他领导了这项研究。他说,理论上,冠状动脉疾病可能会通过减少血流量来改变声音。但也有可能导致声音变化的不是疾病本身,而是其他相关的风险因素,例如压力或抑郁症。

棘手的翻译

这项研究证明了这项技术的希望和局限性。计算机挑选出声音模式是一回事,但理解它们的含义以及它们是否具有临床意义是另一件更困难的任务。它们是所讨论疾病的基本特征吗?还是仅仅是群体之间某些其他差异的标志,例如年龄、性别、体型、教育程度或疲劳,其中任何一个都可能是混杂因素?“我们正试图摆脱仅仅将数据塞入算法的做法,而是真正深入研究数据集,首先提出疾病模型,然后再使用机器学习对其进行测试,”戈米说。

到目前为止,大多数研究都只在一个小的、单一的患者群体中识别出潜在的生物标志物。“可重复性仍然是一个问题,”勒曼说。“我今天、明天和后天的声音是一样的吗?”为了确保结果可以推广——并减少偏见的可能性,这是一个已知困扰医疗算法的问题——研究人员将需要在更大、更多样化的样本中以及在多种语言中测试他们的分类系统。“我们不想仅仅用 300 名患者来验证语音模型,”波士顿语音分析公司 Sonde Health 的数据和研究副总裁吉姆·施沃贝尔说。“我们认为我们需要 10,000 名或更多。”

该公司运营着 SurveyLex,这是一个在线平台,研究人员可以轻松创建和分发语音调查,以及 Voiceome 项目,该项目旨在从多达 100,000 人那里收集语音样本和健康信息,涵盖各种语音任务、地点和口音。“你可能在纽约感到抑郁,而在德克萨斯州休斯顿听起来抑郁程度不同,”施沃贝尔说。

对于研究人员心中设想的许多应用,语音分析系统不仅必须区分病人和健康对照组,还必须区分各种疾病和状况。而且他们需要在实验室外、在不受控制的日常情况下以及在各种消费设备上做到这一点。“你有传感器范围有限的智能手机,人们在非常不受控制的环境中随时随地使用它们,”澳大利亚悉尼新南威尔士大学研究语音信号处理的研究员朱利安·埃普斯说。

埃普斯和他的同事(包括 Sonde Health 的一位研究员)分析了在实验室中使用高质量麦克风录制的声音样本,他们能够以大约 94% 的准确率检测到抑郁症。研究人员在 2019 年的一篇论文中报告说,当使用人们在自己的环境中用智能手机录制的声音样本时,准确率降至不到 75%。

仅仅因为这项技术是非侵入性的,并不意味着它没有风险。它带来了严重的隐私问题,包括个人可能从匿名语音样本中被识别出来、系统可能无意中捕获私人对话,以及敏感的医疗信息可能被出售、共享、黑客入侵或滥用。

如果这项技术没有得到适当的监管,那么保险公司或雇主就有可能在未经明确同意的情况下使用这些系统来分析语音样本或获取个人健康信息,并可能歧视他们的客户或雇员。

然后是假阳性和过度诊断的长期风险。“我们必须认清现实,意识到其中很多仍然是研究,”鲁德齐茨说。“我们需要开始思考当我们将其付诸实践时会发生什么。”

本文经许可转载,并于 2020 年 9 月 30 日首次发表

© . All rights reserved.