脑外科医生像往常一样开始,在头皮上切开一个切口,轻轻地将其分开,露出颅骨。然后,他在骨头上钻了一个3英寸的圆形开口,一直到被称为硬脑膜的厚而坚韧的覆盖层。他切开了硬脑膜,在他开的小孔里,露出了闪闪发光、带有血迹的锡灰色大脑,准备像间谍对待外国大使馆一样接近它:他窃听了它。
阿谢什·梅塔医生是长岛范斯坦医学研究所的神经外科医生,他正在为癫痫患者做手术,以确定癫痫发作的根源。但这位患者同意做更多的事情:参与一项大胆的实验,其最终目标是将思想转化为语言。
当他在那里时,梅塔小心地将一组扁平的微电极放置在大脑左侧的表面,覆盖了参与听和形成语言的区域。通过窃听当一个人在“脑海中”听到他打算表达的词语时(通常非常快,几乎没有意识)在灰质中噼啪作响的电脉冲,然后将这些信号无线传输到解码它们的计算机,电极和系统的其余部分有望成为第一个超越运动和感觉的“脑机接口”。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。
如果一切顺利,它将征服该领域的珠穆朗玛峰:开发一种脑机接口,使脊髓损伤、闭锁综合征、肌萎缩侧索硬化症或其他瘫痪患者能够再次说话。
这项技术不需要让这些患者具备发表莎士比亚独白的能力。因此,越来越多的专家认为,由于神经科学、工程学和机器学习的并行进步,现在可以实现一个解码一个人是否在心中默念是或否或饿了或疼痛或水的系统。
加州大学伯克利分校的布莱恩·帕斯利说:“我们认为我们对编码无声语言的大脑信号有了足够的了解,我们很快就能制造出实用的东西。”“即使是适度的东西对患者也可能意义重大。我确信这是可能的。”
展望未来,Facebook和其他公司设想类似的科技将促进消费品的发展,将思想转化为短信和电子邮件。无需打字或Siri。
第一个脑机接口(BCI)读取运动皮层中与运动意图相对应的电信号,并使用软件将信号转换为操作计算机光标或机械臂的指令。2016年,匹兹堡大学的科学家更进一步,在一个意念控制的机械臂上添加了传感器,使其能够产生触摸的感觉。
尽管脑机接口获得了媒体的热情报道,但在首次原型出现十多年后,它们既不普及,甚至也没有广泛应用。许多项目在最初的兴奋之后就失败了。匹兹堡大学的詹妮弗·科林格说,大多数此类系统都需要笨重的电缆以及装满信号分析仪和其他电子设备的大盒子。科林格帮助开发了触觉机械臂。她和她的同事最近从美国国立卫生研究院获得了800万美元的资助,用于将其提供给匹兹堡的更多患者,并不断改进该设备。
此外,今天的脑电极只能使用几年,这意味着人们需要多次脑部手术,而且目前的BCI系统虽然在实验室中还可以,但在现实世界中使用还不够可靠,科林格说。
语音BCI面临着更高的障碍。解码表达一个词的意图比运动涉及读取更多的大脑信号,并且尚不清楚大脑的哪些区域参与其中。日内瓦大学的斯蒂芬妮·马丁说,主要的挑战是语言编码在一个广泛的大脑网络中,而目前的记录技术无法以足够高的空间和时间分辨率监测整个大脑。马丁去年因其在语音BCI方面取得的进展而获得了奖项。
大脑也非常嘈杂,编码语言的电活动往往会被其他信号淹没。她说:“这使得很难以高精度提取语音模式。”
马丁说,目前为瘫痪、肌萎缩侧索硬化症或其他疾病导致无法说话的人提供的辅助技术“不是很自然和直观”。马丁是一个欧洲联盟的成员,该联盟致力于解码大脑活动中的语言。患者凝视着显示字母的屏幕,头皮电极感应编码眼球运动和位置的脑电波,并且选择的字母拼出语音合成器大声说出的单词。已故的宇宙学家斯蒂芬·霍金患有肌萎缩侧索硬化症,他使用了类似的系统。但科学家们认为,他们可以通过“直接利用语言的神经相关性”做得更好,马丁说。
波士顿大学的计算神经科学家弗兰克·根瑟开发了第一个语音BCI,早在2007年。它使用植入闭锁综合征患者大脑中的电极来窃听运动皮层说话的计划。他们拾取了与以产生特定音素的方式移动舌头、嘴唇、喉部、下巴和脸颊相对应的信号(尽管该研究仅达到了元音)。
在根瑟的合作者,神经学家菲尔·肯尼迪违反联邦卫生监管机构并被禁止在更多患者身上植入电极后,该项目结束了。肯尼迪对该领域的进展缓慢感到沮丧,他自己的大脑在2014年被伯利兹的一位神经外科医生植入了电极、电源线圈和收发器,并且最初似乎遭受了脑损伤,这对情况没有帮助。
其他神经科学家没有被这些声誉挫折吓倒,他们正在与电气工程师合作开发一个植入物、解码器和语音合成器系统,该系统将读取患者的预期单词(以大脑信号编码),并将它们转化为可听见的语音。根瑟说,语音BCI的一个方面可能会使其有一天得到广泛应用:硬件比机械臂便宜得多,机械臂可能花费数十万美元。
根瑟说,他2007年的系统“以今天的标准来看已经很古老了。我不认为[阻碍语音BCI发展的]问题是无法解决的。”
哥伦比亚大学的电气工程师尼玛·梅斯加拉尼也这样认为,他正在领导一个项目,从梅塔植入的电极等电极拾取的信号中重建语音。
这种设备有可能工作的原因是,人脑不会在幻想和现实之间做出严格的区分。当大脑想象某事时,神经元活动在位置和模式上与大脑做某事时非常相似。南瓜派的心理图像会在视觉皮层中产生活动,非常类似于看到南瓜派时的活动;想象投篮会引起类似于实际执行投篮的神经元活动。
对于“隐蔽”或无声语言也是如此:在不移动嘴唇或舌头的情况下排练你要说的话“会产生与实际说话相同的大脑活动模式”,梅斯加拉尼说。
心理上倾听你的无声语言也是如此。“把它想象成心灵的耳朵,”伯克利的帕斯利说。说出单词长颈鹿。然后默默地说出来。在你的大脑中,第二个音节应该比第一个音节更响亮,并且音调可能会升高。帕斯利解释说,这些和其他品质构成了单词的频谱图。
至关重要的是,与心灵的耳朵相对应的大脑活动发生在听觉皮层中,听觉皮层也听到来自外部世界的声音:帕斯利和他的同事在一篇论文中报告说,这种重叠“是很大的”,该论文将在下个月的《大脑皮层》杂志上发表。
这使得窃听设备能够重建无声语言,即使远非完美。在马丁在伯克利与帕斯利进行的一项研究中,要求大脑中植入电极的参与者思考大声说出一系列单词,例如牛仔、游泳、蟒蛇和电话。不幸的是,软件对勺子和战场等词对的脑信号的解释准确率仅略好于抛硬币。然而,与一个早期系统相比,这是一个很大的进步,该系统在弄清楚在隐蔽语言期间大脑活动编码了什么元音或辅音(甚至不是一个完整的单词)方面得分低于40%。
伯克利的结果足以证明概念,但仅此而已。梅斯加拉尼说:“从那项研究和类似研究中重建的语音根本无法理解。”“我们正在努力克服可理解性障碍。”
他说,最好的方法是使用机器学习,或训练软件来解释与隐蔽语言相对应的大脑活动,从错误中学习,并逐步改进。
为了测试他的想法,梅斯加拉尼与梅塔合作,梅塔招募了五名癫痫患者参与研究。在他们的手术过程中,他在听觉皮层的两个区域表面放置了一个电极网格(扁平阵列称为皮层脑电图):在赫希尔回和颞上回之上。后者包含韦尼克区,该区域负责找出要使用的单词。两个回都处理语音的特征,包括音量、语调、频率,以及至关重要的音素——构成口语的最小声音单位,例如“sh”。
然后,志愿者们听人们说数字(“一、二、三……”)并阅读故事30分钟。声学处理软件提取了聆听语音引起的神经活动,本质上是一系列复杂的电信号。梅斯加拉尼和他的团队开发的“深度神经网络”基本上推断出与神经活动相对应的语言声音,然后分析了该活动。这些推断被转换回电信号。这些信号被发送到声码器,这是一种从电信号的特征(如频率和其他听觉元素)产生声音的合成器。
整个过程就像将法拉利的操作手册从意大利语翻译成英语,再翻译成日语,然后再翻译回意大利语:最终版本听起来通常与原始版本截然不同。这就是以前关于语音脑机接口的研究得到的:一串大多无法理解的声音。梅斯加拉尼说:“在此之前,你无法很好地从电气数据中重建语音的声音。”
他的脑机接口的测试是,声码器发出的微弱声音是否与参与者听到的故事和数字的声音有任何相似之处。他们做到了:科学家们在一篇发布在bioRxiv预印本网站上的论文中报告说,可理解性达到了75%,而早期语音BCI的可理解性略高于一半;该论文尚未经过同行评审,但作者已将其提交给期刊。
平均某人对特定语音话语(重复多次)的所有神经反应提高了重建的合成语音的准确性,从阵列中128个电极中读取更多读数也是如此。
梅斯加拉尼说,下一步是在想象说话引起的大脑信号上测试深度神经网络。“之前的研究表明,检测编码这种未说出口的语言的信号是‘可能的’,”他说;瓶颈一直在于声学处理和语言合成器。
他说,通过改进潜在语音BCI的后端,“我们拥有了一个良好的框架,可以从大脑活动中生成准确且可理解的重建语音”,他称之为“迈向下一代人机交互系统……为遭受瘫痪和闭锁综合征的患者迈出的一步”。
最初为残疾人开发的技术可能会普及到所有人——或者可能会反过来。在2017年麻省理工学院的一次神经技术会议上,Facebook的马克·切维莱特描述了该公司“思想到打字”的BCI研究,其指导问题是:“如果你可以直接从大脑中打字怎么办?”
他指导的该项目的目标是“开发一种无声语音界面,让你的文本生成速度比打字快五倍,或每分钟100个单词。”该公司正在研究是否可以准确地将非侵入性检测到的高质量神经信号(即使是最热心的Facebook用户也不太可能同意脑部手术)解码为音素。如果是这样,下一步是将信号输入到将音素序列与单词配对的数据库中,然后使用特定于语言的概率数据来预测信号最有可能意味着哪个单词(很像Gmail中的自动填充)。
“这不是科幻小说,”切维莱特在会议上说。