使用人工智能 (AI) 增强的脑机植入设备,已使两位瘫痪人士能够以前所未有的准确性和速度进行交流。
在分别于8月23日发表在《自然》杂志上的两项研究中,两个研究团队描述了脑机接口 (BCI),这种接口可以将神经信号转化为文本或合成语音说出的单词。BCI 可以分别以每分钟 62 个单词和每分钟 78 个单词的速度解码语音。自然对话的速度约为每分钟 160 个单词,但这两项新技术都比以往的任何尝试都要快。
“现在可以想象,在未来,我们可以帮助瘫痪人士恢复流畅的对话,使他们能够自由地说出他们想说的任何话,并且准确率足够高,能够被可靠地理解,” 斯坦福大学神经科学家弗朗西斯·威利特在 8 月 22 日的新闻发布会上说,他是其中一篇论文的合著者。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保未来继续推出关于塑造我们当今世界的发现和思想的具有影响力的报道。
荷兰马斯特里赫特大学的计算神经科学家克里斯蒂安·赫夫说,这些设备“可能在不久的将来成为产品”。
电极和算法
威利特和他的同事开发了一种 BCI,用于解释细胞水平的神经活动并将其转化为文本。他们与 67 岁的帕特·贝内特合作,她患有运动神经元疾病,也称为肌萎缩侧索硬化症——这是一种导致肌肉控制逐渐丧失的疾病,导致行动和说话困难。
首先,研究人员对贝内特进行了手术,将小型硅电极阵列插入大脑中参与言语的部分,位于表面下几毫米处。然后,他们训练深度学习算法来识别贝内特试图说话时大脑中的独特信号,使用了包含 125,000 个单词的大词汇集和包含 50 个单词的小词汇集。人工智能从音素(构成口语单词的语音亚单位)中解码单词。对于 50 个单词的词汇量,BCI 的工作速度比早期先进的 BCI 快 2.7 倍,单词错误率达到 9.1%。对于 125,000 个单词的词汇量,错误率上升至 23.8%。威利特在新闻发布会上说:“大约每四个单词中就有三个被正确破译。”
贝内特在给记者的声明中说:“对于那些无法说话的人来说,这意味着他们可以与更大的世界保持联系,也许可以继续工作,维持朋友和家庭关系。”
读取大脑活动
在另一项研究中,加州大学旧金山分校的神经外科医生爱德华·张和他的同事与一位名叫安的 47 岁女性合作,她在 18 年前脑干中风后失去了说话能力。
他们使用了与威利特团队不同的方法,将一个包含 253 个电极的纸薄矩形放置在大脑皮层的表面。这项技术称为皮层脑电图 (ECoG),被认为侵入性较小,可以同时记录数千个神经元的综合活动。该团队训练人工智能算法来识别安的大脑活动模式,这些模式与她尝试使用 1,024 个单词的词汇量说出 249 个句子的尝试有关。该设备产生的速度为每分钟 78 个单词,单词错误率中位数为 25.5%。
法国格勒诺布尔神经科学研究所的神经技术研究员布莱斯·伊维特说,尽管威利特团队使用的植入物能够更精确地捕捉神经活动,并且在大词汇量方面优于这项技术,但“很高兴看到使用 ECoG 也能实现较低的单词错误率”。
张和他的团队还创建了定制算法,将安的大脑信号转换为合成语音和一个模仿面部表情的动画化身人物。他们通过使用安婚礼视频中的录音训练语音,使其听起来像安受伤前的声音。
安在研究后的反馈会议上告诉研究人员:“听到与自己声音相似的声音,这种简单的感觉就令人动容。” “当我能够自己说话时,这种感觉太棒了!”
张说:“声音是我们身份非常重要的一部分。它不仅关乎交流,还关乎我们是谁。”
临床应用
在 BCI 可用于临床使用之前,还需要进行许多改进。安告诉研究人员:“理想的情况是连接是无线的。” 伊维特补充说,适合日常使用的 BCI 必须是完全可植入的系统,没有可见的连接器或电缆。两个团队都希望继续使用更强大的解码算法来提高其设备的速度和准确性。
赫夫说,而且两项研究的参与者在思考说话时仍然能够调动面部肌肉,并且他们与言语相关的大脑区域完好无损。“但并非所有患者都是如此。”
威利特说:“我们认为这是一个概念验证,只是为该领域的行业人士提供动力,将其转化为人们真正可以使用的产品。”
这些设备还必须在更多人身上进行测试,以证明其可靠性。加拿大温哥华不列颠哥伦比亚大学的神经伦理学研究员朱迪·伊莱斯说:“无论这些数据多么优雅和技术精湛,我们都必须以非常谨慎的方式在上下文中理解它们。” 她补充说:“我们必须小心,不要过度承诺在广大人群中的广泛适用性。” “我不确定我们是否已经达到那个程度。”
本文经许可转载,并于2023年8月23日首次发表。