“意念发声”：研究人员从大脑的听觉活动中解码词语

解读大脑语言处理中心的信号可能会改进语音识别技术，或为重度残疾人士提供交流手段

啊，如果能成为听觉皮层上的一只苍蝇就好了！

从某种意义上说，这正是伯克利和旧金山的一组研究人员所做的。对大脑处理语音的区域中的电信号进行测量，使该小组能够解码受试者正在听的词语——本质上是一种神经窃听。

其目标远比弄清你的老板对你的真实看法或隔壁办公室里正在发生什么要崇高得多。这项研究揭示了大脑如何整理声音并将其转化为语言。“希望，”加州大学伯克利分校的博士后研究员、该研究的主要作者布莱恩·帕斯利说，“这些知识可以用来帮助重度残疾人士恢复交流能力。”这项工作可以补充其他利用声道、嘴唇和舌头的肌肉运动来重建语音的努力。

关于支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道订阅。通过购买订阅，您正在帮助确保有关当今塑造我们世界的发现和想法的具有影响力的故事的未来。

这些研究人员——他们还来自马里兰大学帕克分校、约翰·霍普金斯大学和加利福尼亚大学旧金山分校——今天在《公共科学图书馆·生物学》 (PLoS Biology) 上发表了他们的研究成果 (pdf)。

在实验中，受试者通过扬声器或耳机收听单词：有时只是孤立的单词，如“爵士乐”或“财产”；伪词，如“fook”和“nim”；在少数情况下，则是完整的句子。随后，研究团队研究了这种活动在大脑听觉皮层（处理所听到的内容，从而理解语言和其他声音的区域）中出现的记录。

这些受试者是15名具有正常语言技能的志愿者，他们也恰好正在接受癫痫或脑肿瘤的神经外科治疗。由于他们的大脑活动已经在皮层表面进行癫痫发作监测，因此研究人员可以检查这些直接皮层测量数据，用于他们的听觉研究。帕斯利解释说，如果没有这些志愿者，就不可能获得这样的大脑扫描数据。

帕斯利和同事们设计了一种算法——一种计算模型——将听者听到的声音映射到电极的测量值。然后，该模型可以“学习”如何将声音与大脑的电信号相匹配。

接下来，研究人员通过换位来测试他们的模型：从听者的脑活动开始，他们使用该模型重建听者听到的单词。具体来说，该模型重建了一种声音，类似于但不立即识别为单词。为了闭合循环，研究人员然后查看了一组47个单词，以找到与模型声音最匹配的一个。

他们不仅可以通过皮层活动成功地“窃听”，还创建了该模型的两个版本来解释声音的不同特征。他们计算模型的一个版本利用声音的线性表示，称为频谱图，它绘制了频率随时间的变化。另一个版本使用声音的非线性表示，称为调制模型。帕斯利解释说，在线性版本中，声音节奏由大脑的振荡编码，而在非线性版本中，节奏由大脑活动的整体水平传达。在慢速语音节奏下，两个模型都运行良好，但在较快的节奏下，非线性声音表示会创建更准确的模型。

这项技术可以改进语音识别技术。尽管智能手机做得还不错，但任何收到神秘的谷歌语音转录的人都知道，语音识别仍然不完美。

这项工作与今年秋天加州大学伯克利分校在另一个感官领域发表的研究相呼应——一种计算模型，可以重建受试者在电影预告片中看到的图像。

关于帕斯利及其同事的研究，一个显而易见的后续问题是：这是否有可能读取我们默念的词语，例如，“哦不，怎么又是他。”帕斯利解释说，这项研究适用于听者听到的实际声音。大脑的相同区域是否参与我们内心的自言自语，目前尚不清楚。

不过，该实验表明，不需要读心术就能倾听大脑工作中微妙的处理过程。