大脑扫描仪与 AI 语言模型结合,可以窥探你的思想

新技术可以收集一个人躺在脑部扫描仪中听到的故事的要点

功能性磁共振成像 (fMRI) 捕捉大脑活动时粗略、色彩丰富的快照。虽然这种专门类型的磁共振成像已经改变了认知神经科学,但它不是一台读心机:神经科学家无法通过脑部扫描来判断扫描仪中的人在看什么、听什么或想什么。

但科学家们正在逐步突破这一基本障碍,利用脑成像将内在体验转化为文字。这项技术可以帮助那些无法说话或以其他方式进行外在交流的人,例如中风患者或肌萎缩侧索硬化症患者。目前的脑机接口需要在脑内植入设备,但神经科学家希望使用非侵入性技术(如 fMRI)来破译内言,而无需手术。

现在,研究人员通过将 fMRI 监测神经活动的能力与 人工智能语言模型 的预测能力相结合,向前迈进了一步。这项混合技术产生了一个解码器,该解码器可以令人惊讶地准确地再现一个人在扫描仪中听到或想象讲述的故事。解码器甚至可以猜测某人在扫描仪中观看的短片背后的故事,尽管准确性较低。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的有影响力的故事的未来。


德克萨斯大学奥斯汀分校的计算神经科学家、该研究的主要作者杰里·唐在新闻发布会上说:“脑部数据中包含的信息比我们最初想象的要多得多。” 这项于周一发表在《自然通讯》杂志上的研究是唐所描述的“可以从对大脑活动的非侵入性记录中解码语言的概念验证”。

解码器技术尚处于起步阶段。它必须针对每个使用者进行大量训练,并且它不会构建他们听到或想象的文字的精确文本。但这仍然是一项值得注意的进步。研究人员现在知道,人工智能语言系统(ChatGPT 背后模型的早期版本)可以通过查看 fMRI 脑部扫描,帮助对引发大脑活动的词语做出明智的猜测。虽然目前的技术限制阻止了解码器被广泛使用(无论好坏),但作者强调需要制定积极的政策来保护个人内在心理过程的隐私。“我们得到的东西仍然有点像原始故事的‘要点’,或者更像是释义,”德克萨斯大学奥斯汀分校的计算神经科学家、该研究的资深作者亚历山大·胡斯说。

以下是论文中转录的一位研究参与者听到的一个例子:“我从充气床垫上起身,将脸贴在卧室窗户的玻璃上,期望看到眼睛盯着我看,但却只看到黑暗。” 通过检查此人的脑部扫描,该模型继续解码为:“我只是继续走到窗户边并打开玻璃,我踮起脚尖向外看,我什么也没看到,然后再次抬头,我什么也没看到。”

马萨诸塞理工学院的神经科学家安娜·伊万诺娃(未参与该研究)表示:“总的来说,肯定还有很长的路要走,但目前的结果比我们以前在 fMRI 语言解码方面取得的任何成果都要好。”

该模型遗漏了很多关于其解码的故事的信息。它在语法特征(如代词)方面存在困难。它无法破译专有名词(如姓名和地点),有时它会完全搞错。但与过去的方法相比,它实现了很高的准确率。在故事中,解码器在解码其含义方面,有 72% 到 82% 的时间比随机机会预期的更准确。

马萨诸塞理工学院的计算神经科学家马丁·施里普夫(未参与该研究)说:“结果看起来确实非常好。” 先前尝试 使用人工智能模型解码大脑活动取得了一些成功,但最终遇到了瓶颈。施里普夫说,唐的团队在这里使用了“一种更准确的语言系统模型”。 该模型是 GPT-1,它于 2018 年问世,是 GPT-4 的原始版本,GPT-4 是现在 ChatGPT 的基础模型。

几十年来,神经科学家一直致力于破译 fMRI 脑部扫描,以便与无法进行外在交流的人建立联系。在 2010 年的一项关键研究 中,科学家使用 fMRI 向一位无法控制身体且外表看起来无意识的个体提出“是或否”问题。

但解码整个单词和短语是一项更艰巨的挑战。最大的障碍是 fMRI 本身,它不直接测量大脑神经元的快速放电,而是跟踪为这些神经元供氧的血流的缓慢变化。跟踪这些相对缓慢的变化使 fMRI 扫描在时间上“模糊不清”:想象一下熙熙攘攘的城市人行道的长时间曝光照片,面部特征因运动而模糊不清。尝试使用 fMRI 图像来确定大脑在任何特定时刻发生了什么,就像尝试识别照片中的人一样。这对破译快速飞逝的语言来说是一个明显的问题,一张 fMRI 图像最多可捕捉约 20 个单词的响应。

现在看来,人工智能语言模型的预测能力可以提供帮助。在新研究中,三名参与者在 fMRI 扫描仪中静止不动地躺了 15 次,总计 16 个小时。他们通过耳机收听播客和广播节目的节选,例如The Moth Radio Hour纽约时报Modern Love。与此同时,扫描仪跟踪了大脑不同语言相关区域的血流。然后,这些数据被用来训练人工智能模型,该模型发现了每个受试者的大脑如何响应某些单词和概念的模式。

在发现这些模式后,该模型获取了一系列新的脑部图像,并预测了在拍摄图像时该人正在听什么。它逐渐浏览故事,将新的扫描与人工智能对大量候选词的预测模式进行比较。为了避免不得不检查英语中的每个单词,研究人员使用 GPT-1 来预测哪些单词最有可能出现在特定语境中。这创建了一个可能的词序小池,可以从中选择最可能的候选词。然后,GPT-1 继续处理下一个单词串,直到它解码了整个故事。

研究人员使用相同的方法来解码参与者仅想象讲述的故事。他们指示参与者想象自己叙述一个详细的、一分钟的故事。虽然解码器的准确性有所下降,但与随机机会相比,它仍然比预期的要好。这表明相似的大脑区域参与了想象某事物与仅仅感知它。将想象的言语转化为文字的能力对于为无法用语言交流的人设计脑机接口至关重要。

更重要的是,研究结果超出了语言范围。在最令人惊讶的结果中,研究人员让人们在扫描仪中观看没有声音的动画短片。尽管解码器明确接受了口语训练,但它仍然可以从参与者观看无声电影的脑部扫描中破译故事。“我对视频比想象的言语更惊讶,”胡斯说,因为电影是静音的。“我认为我们正在解码比语言更深层次的东西,”他在新闻发布会上说。

尽管如此,这项技术距离在日常生活中用作脑机接口还有很多年。首先,扫描技术不便携——fMRI 机器占据了医院和研究机构的整个房间,耗资数百万美元。但胡斯的团队正在努力使这些发现适应现有的可以像帽子一样佩戴的脑成像系统,例如功能性近红外光谱 (fNIRS) 和脑电图 (EEG)。

新研究中的技术还需要进行大量的定制,每个个体都需要数小时的 fMRI 数据。“它不像耳机,你可以直接戴上它们,它们就可以为你工作,”施里普夫说。对于每个用户,人工智能模型都需要经过训练才能“适应和调整你的大脑”,他补充道。施里普夫猜测,随着研究人员在未来发现人们大脑中的共性,这项技术将需要更少的定制。相比之下,胡斯认为更准确的模型将更加详细,需要更精确的定制。

该团队还测试了该技术,以查看如果有人想抵抗或破坏扫描会发生什么。研究参与者可以通过在脑海中讲述另一个故事来欺骗它。胡斯说,当研究人员要求参与者这样做时,结果是胡言乱语。“[解码器] 完全崩溃了。”

即使在早期阶段,作者也强调考虑制定政策来保护我们内心的话语和想法的隐私的重要性。“这项技术现在还不能用来做真正邪恶的事情,”唐说,“但我们不希望在我们制定可能阻止这种情况发生的政策之前就达到那种程度。”

艾莉森·帕肖《大众科学》的副新闻编辑,经常报道生物学、健康、技术和物理学。她编辑该杂志的“投稿人”专栏和每周在线 科学测验。作为一名多媒体记者,帕肖为《大众科学》的播客 Science Quickly 撰稿。她的作品包括一个关于音乐制作人工智能的三部分迷你剧。她的作品也曾出现在Quanta Magazine 和 Inverse 上。帕肖毕业于纽约大学亚瑟·L·卡特新闻学院,获得科学、健康和环境报道硕士学位。她拥有乔治城大学心理学学士学位。在 X(以前称为 Twitter)上关注帕肖 @parshallison

更多作者:艾莉森·帕肖
© . All rights reserved.