功能性磁共振成像 (fMRI) 是用于理解我们如何思考的最先进工具之一。当一个人在 fMRI 扫描仪中完成各种心理任务时,该机器会生成他们大脑活动时令人着迷的彩色图像。
以这种方式观察某人的大脑活动可以告诉神经科学家一个人正在使用哪些大脑区域,但不能说明这个人正在思考、看到或感觉到什么。几十年来,研究人员一直试图破解这一密码——现在,他们利用人工智能来处理数据,已经取得了重大进展。最近,日本的两名科学家将 fMRI 数据与先进的图像生成人工智能相结合,以将研究参与者的大脑活动翻译回成与他们在扫描期间看到的图像惊人地相似的图片。原始图像和重建图像可以在研究人员的网站上看到。
大阪大学神经科学家、该研究的作者之一 Takagi Yu 说:“我们可以使用这些技术来构建潜在的脑机接口。” 此类未来的接口有一天可能会帮助目前无法沟通的人,例如外表看起来没有反应但可能仍然有意识的个体。这项研究最近被接受在 2023 年计算机视觉和模式识别会议上展示。
支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述有关当今塑造我们世界的发现和想法的具有影响力的故事。
该研究自 2022 年 12 月以预印本形式发布(意味着尚未经过同行评审或发表)以来,已在网上引起轰动。在线评论员甚至将该技术比作“读心术”。但专家表示,这种描述夸大了这项技术的能力。
德克萨斯大学奥斯汀分校的计算神经科学家 Shailee Jain 说:“我不认为我们是在读心术,她没有参与这项新研究。“我不认为这项技术目前已接近对患者有用——或被用于坏事——的程度。但我们正在日复一日地变得更好。”
这项新研究远非第一个使用人工智能处理大脑活动以重建人们看到的图像的研究。在 2019 年日本京都进行的一项实验中,研究人员使用了一种名为深度神经网络的机器学习来从 fMRI 扫描中重建图像。结果看起来更像是抽象画而不是照片,但人类评委仍然可以准确地将人工智能生成的图像与原始图片进行匹配。
此后,神经科学家继续使用更新、更好的人工智能图像生成器进行这项工作。在最近的研究中,研究人员使用了 Stable Diffusion,这是一种来自伦敦初创公司 Stability AI 的所谓扩散模型。Takagi 说,扩散模型——也包括 DALL-E 2 等图像生成器——是“人工智能爆炸的主角”。这些模型通过向训练图像添加噪声来学习。就像电视静电一样,噪声会扭曲图像——但以模型开始学习的可预测的方式扭曲。最终,该模型可以仅从“静电”构建图像。
Stable Diffusion 于 2022 年 8 月公开发布,已在数十亿张照片及其标题上进行了训练。它已经学会识别图片中的模式,因此它可以按命令混合和匹配视觉特征以生成全新的图像。阿姆斯特丹大学的神经科学家 Iris Groen 说:“你只需告诉它,‘滑板上的狗’,然后它就会生成一只滑板上的狗,”她没有参与这项新研究。研究人员“只是采用了该模型,然后他们说,‘好吧,我们现在可以以一种聪明的方式将其与脑部扫描连接起来吗?’”
新研究中使用的脑部扫描来自一个研究数据库,该数据库包含早期研究的结果,在该研究中,八名参与者同意在一年多的时间里定期躺在 fMRI 扫描仪中并观看 10,000 张图像。结果是一个庞大的 fMRI 数据存储库,显示了人类大脑的视觉中心(或至少这八名人类参与者的大脑)如何响应看到每张图像。在最近的研究中,研究人员使用了来自四名原始参与者的数据。
为了生成重建图像,人工智能模型需要处理两种不同类型的信息:图像的低级视觉属性及其高级含义。例如,它不仅仅是一个蓝色背景上的棱角分明的细长物体——而是一架天空中的飞机。大脑也使用这两种信息,并在不同的区域处理它们。为了将脑部扫描和人工智能连接在一起,研究人员使用了线性模型来配对每个部分中处理低级视觉信息的部分。他们还对处理高级概念信息的部分做了同样的事情。
Groen 说:“通过基本上将这些部分相互映射,他们能够生成这些图像。” 然后,人工智能模型可以学习一个人大脑激活中的哪些细微模式对应于图像的哪些特征。一旦模型能够识别这些模式,研究人员就向其输入了以前从未见过的 fMRI 数据,并要求它生成与该数据相符的图像。最后,研究人员可以将生成的图像与原始图像进行比较,以查看模型的性能如何。
作者在研究中展示的许多图像对看起来非常相似。加州大学圣巴巴拉分校的计算机科学家 Ambuj Singh 说:“我发现令人兴奋的是它有效,”他没有参与这项研究。尽管如此,Singh 说,这并不意味着科学家已经弄清楚大脑究竟是如何处理视觉世界的。Stable Diffusion 模型不一定以与大脑相同的方式处理图像,即使它能够生成相似的结果。作者希望比较这些模型和大脑可以揭示这两个复杂系统的内部运作方式。
尽管这项技术听起来可能很奇妙,但它有很多局限性。每个模型都必须在仅一个人的数据上进行训练和使用。荷兰拉德堡德大学的计算神经科学家 Lynn Le 说:“每个人的大脑都非常不同,”她没有参与这项研究。如果您想让人工智能根据您的大脑扫描重建图像,您将必须训练一个定制模型——为此,科学家将需要来自您大脑的大量高质量 fMRI 数据。除非您同意完美静止地躺在发出撞击声、幽闭恐惧的 MRI 管中并专注于数千张图像,否则没有现有的人工智能模型有足够的数据来开始解码您的大脑活动。
Jain 解释说,即使有了这些数据,人工智能模型也只能胜任经过明确训练的任务。一个经过训练以了解您如何感知图像的模型不适用于尝试解码您正在思考的概念——尽管包括 Jain 的团队在内的一些研究团队正在为此构建其他模型。
目前尚不清楚这项技术是否可以用于重建参与者仅凭想象而非用眼睛看到的图像。这种能力对于该技术的许多应用来说是必要的,例如使用脑机接口来帮助那些无法说话或示意的人与世界交流。
Jain 说:“从神经科学的角度来看,构建解码技术有很多收获。” 但潜在的好处也伴随着潜在的伦理困境,随着这些技术的改进,解决这些困境将变得更加重要。她说,该技术目前的局限性“不足以成为轻视解码潜在危害的充分理由”。“我认为现在是考虑隐私和这项技术的负面用途的时候了,即使我们可能还没有到可能发生这种情况的阶段。”
本文是关于医学中的生成式人工智能的系列文章的一部分。