可能导致瘫痪的神经系统疾病,如肌萎缩侧索硬化症 (ALS) 和脑干中风,也会剥夺许多患者说话的能力。辅助技术使其中一些人能够控制键盘(如已故著名物理学家斯蒂芬·霍金),而脑机接口使另一些人能够直接用意念控制机器。但这两种类型的设备对于闭锁综合征和其他沟通障碍患者来说都太慢且不实用。
现在,研究人员正在开发工具来监听与言语相关的大脑活动,对其进行解码并将其转换为机器说出的单词。最近的一项研究使用了最先进的机器学习和语音合成技术,获得了迄今为止一些最令人印象深刻的结果。
哥伦比亚大学祖克曼研究所的电气工程师尼玛·梅斯加拉尼和他的同事研究了五名癫痫患者,这些患者为了治疗,大脑中植入了电极或将电极放置于大脑表面。这些电极覆盖了参与处理语音的区域。患者在听故事朗读时,大脑活动被记录下来。研究小组训练了一个“深度学习”神经网络,将这种活动与相应的音频相匹配。然后,测试内容是,给定系统之前未见过的神经数据,系统是否可以重现原始语音。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的有影响力的故事的未来。
当患者听到零到九的数字各说四遍时,该系统将神经数据转换为驱动声码器(一种特殊的语音合成器)所需的值。另一组参与者听到了合成的词语,并根据发表在1月份的《科学报告》上的研究,正确识别了其中 75% 的词语。之前的大多数努力都没有衡量这种重建的语音可以被理解的程度。“我们表明它是可理解的,”梅斯加拉尼说。
研究人员已经知道可以从大脑活动中重建语音,但这项新工作是朝着更高性能迈出的一步。“还有很大的改进空间,但我们知道信息就在那里,”加州大学旧金山分校的神经外科医生爱德华·张说,他没有参与这项研究。“在未来几年,情况将会变得更好——这是一个快速发展的领域。”
存在一些局限性。梅斯加拉尼的团队记录了来自语音感知区域而非语音产生区域的大脑活动;研究人员还仅在一小组单词而非包含大量词汇的完整句子上评估了他们的系统。(包括张在内的其他研究人员已经在研究这些问题。)也许最重要的是,这项研究旨在解码与实际听到的语音相关的活动,而不是仅仅是想象的语音——后者是开发实用设备所必需的。“对我们所有人来说,挑战在于实际语音与想象语音,”梅斯加拉尼说。