神经科学:大脑大数据

神经科学家开始共享和整合数据——但转向团队合作的方式并非易事

在大型脑图谱计划中,台湾的项目可能显得规模较小。那里的科学家正在研究不起眼的果蝇,从单个神经元的图像中逆向工程其大脑。他们的努力已经产生了令人惊叹的详细大脑回路3D图谱。

研究人员只需一台电脑鼠标和网络浏览器,即可定位到单个细胞,并缩小到相互交织的神经束网络。这些线路图看起来像是挂毯上色彩鲜艳的丝线,清晰到足以显示哪些细胞簇控制着特定的行为。通过刺激特定的神经回路,研究人员可以提示果蝇拍动左翼或左右摆动头部——这些壮举在11月于加利福尼亚州圣地亚哥举行的神经科学学会年会上引起了下午晚些时候人群的欢呼。

但即使对于如此小的生物,该团队也花了整整十年时间才对60,000个神经元进行成像,每个细胞的数据量为1千兆字节,项目负责人、台湾新竹市国立清华大学的神经科学家蒋安世说——而这甚至还不到果蝇大脑中神经细胞的一半。蒋安世在会议上报告说,如果使用相同的方案对人脑中860亿个神经元进行成像,估计需要1700万年。


支持科学新闻事业

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将帮助确保关于塑造我们今天世界的发现和想法的具有影响力的故事能够拥有未来。


其他技术更易于处理。2016年7月,一个国际团队发布了人脑褶皱外层——大脑皮层的图谱1。许多科学家认为这项成果是迄今为止最详细的人脑连接图谱。然而,即使在其最高的空间分辨率(1立方毫米)下,每个体素——3D物体中最小的可区分元素——也包含数万个神经元。这与在果蝇中以单细胞分辨率绘制的神经连接相去甚远。

“如果你认为大脑解剖学是一个已解决的问题,那就听我们的——事实并非如此,”马萨诸塞州查尔斯镇马萨诸塞州总医院的神经科学家、美国政府资助的全球联盟“人类连接组计划”(HCP)的首席研究员范·韦登说,该联盟发布了脑图谱。

神经生物学领域的情况就是如此,大数据确实非常庞大。尽管计算基础设施和数据传输方面取得了进展,但神经科学家仍在努力应对他们版本的“大数据”革命,这场革命在几十年前席卷了基因组学领域。

但脑图谱绘制和DNA测序是不同的。单个神经影像数据集的容量可以达到太字节级别——比完整的哺乳动物基因组大两到三个数量级。虽然遗传学家知道他们何时完成了一个DNA片段的解码,但脑图谱绘制者缺乏明确的停止点,并且需要处理更丰富的成像和电生理数据——同时还要争论收集、共享和解释这些数据的最佳方法。然而,随着科学家开发出共享和分析不断扩展的神经科学数据集的工具,他们逐渐达成了一个共识:破解大脑需要协同努力。

科学家可以在多个层面上绘制大脑图谱。HCP 寻求使用磁共振成像 (MRI) 在宏观尺度上绘制大脑连接图。一些实验室正在微观尺度上绘制神经通路图,而另一些实验室(如蒋安世的实验室)则以纳米级精度追踪每个突触和神经分支。还有一些实验室正在努力将基因表达模式、电生理测量或其他功能数据叠加到这些图谱上。这些方法使用了不同的技术——但都产生了大数据(见“大数据的数据”)。

有多大?

部分原因是,无论是哪个物种,大脑都非常庞大且相互连接。但这也源于细胞难以控制的尺寸。哺乳动物神经元的主要延伸部分——轴突——的长度可以是其最小分支(称为树突)宽度的 200,000 倍。如果按比例构建一个模型,用意大利面条代表树突,那么神经元本身将超过三分之一公里长,或相当于四个美式橄榄球场。

在实验室中,研究人员通过追踪每个神经元在数百张重叠的脑切片图像堆栈中的数千个投射来绘制其图谱。基于光学的显微镜可提供 0.25–0.5 微米的分辨率,足以追踪单个神经元的主体。但要揭示突触——电信号或化学信号流经的微小信号连接——则需要纳米分辨率的电子显微镜。更高的分辨率意味着更小的视野,因此需要更多的图片。而更多的图片意味着更多的数据。

“我们不再处理兆字节,甚至千兆字节的数据,”洛杉矶南加州大学神经影像实验室负责人亚瑟·托加说。“我们正在处理太字节的数据。仅仅将数据从一个地方传输到另一个地方就是一个问题”——2 太字节的数据将填满许多台式电脑的硬盘驱动器。

蒋安世的果蝇团队梳理了 1 太字节的图像,重建了 1,000 个神经细胞——不到果蝇大脑的 1%。HCP 联合首席研究员、明尼阿波利斯明尼苏达大学的卡米尔·乌格比尔说,为了绘制人脑皮层图谱,HCP 研究人员分析了来自 210 名健康年轻人的 6 太字节 MRI 数据。实验室可以从该项目的网站下载这些数据,或者对于更大的数据集,可以订购 8 太字节的硬盘驱动器,每个售价 200 美元。

电生理学研究也变得对计算要求很高。如今,研究人员通常一次记录数百个神经元。瑞士日内瓦大学的神经科学家亚历山大·普杰说,很快,这个数字将达到数千个;五年后,将达到数十万个。“这就是我们将要经历的飞跃。”

这些数据以多种格式呈现。大脑活动可以表现为电生理图表上波浪线中的峰值,或者表现为钙离子在神经元内外移动时发出的绿色闪光。在这些绿色图像上,其他荧光色调可以指示哪些神经元正在发送和接收信号。研究人员可以在受试者在迷宫中导航、寻找食物或观看屏幕上闪烁的点时收集这些数据。

哈佛大学剑桥分校的神经科学家弗洛里安·恩格特说,如果你记录小鼠大脑中 20 分钟的神经活动,你将产生大约 500 拍字节的“闪烁”,其中神经细胞的放电被表示为像素值的变化。但“没有人关心像素。人们感兴趣的是哪些神经元与其他神经元相连,以及它们何时放电。”他说,通过隔离每个神经元并分配它们放电的时间戳,你可以将数据集缩小到更易于管理的 500 千兆字节。

“原始数据中的信息内容大多无关紧要,”恩格特说。他用基因组测序作了一个类比:在他们拥有自动测序仪之前,研究人员将 DNA 读取为在暴露于 X 射线胶片的聚丙烯酰胺凝胶上的有序条带模式。现在,计算机算法将这些条带转换为 G、A、T 和 C 的序列——构成 DNA 链的碱基——并且没有人保存原始图像。恩格特说,同样,脑科学家应该“专注于开发算法,而不是管理和分发原始数据”,以使用更少的比特来编码信息。他说,理想情况下,这样的算法将使收集数据的显微镜也能够压缩数据。

这个想法是明智的,但对于大脑来说可能具有挑战性,部分原因是数学。例如,为了使用 X 射线晶体学确定蛋白质结构,存在一个“非常清晰的理论模型”——一系列方程,将蛋白质的特定特征与其衍射模式中的可量化特征相关联,美国马里兰州罗克维尔国家心理健康研究所 (NIMH) 数据档案馆的格雷格·法伯说。为了计算出 3D 结构,“你只需测量光点的强度。你不需要保留胶片上许多其他像素的数据,”他说。

神经科学家没有可比的模型——没有将神经连接和活动与行为、记忆或认知联系起来的图谱。法伯说,鉴于大脑的巨大复杂性,问题“不是我们有太多数据,而是对于我们试图解决的复杂性而言,我们的数据还远远不够”。

“数据不足”的问题引起了犹他州盐湖城犹他大学研究神经发育障碍的系统神经科学家朱莉·科伦伯格的共鸣。关于此类疾病的一个普遍假设是,基因的变化会使某些神经元中的蛋白质表达发生偏差,进而改变大脑的布线,从而导致典型的行为缺陷。MRI 可以检测到明显的神经解剖学变化,例如脑区扩大。但更细微的变化需要更高分辨率的方法,例如共聚焦或电子显微镜。但这些成像数据以完全不同的格式表示,并且无法在两者之间切换:一旦科学家放大到单个细胞的水平,他们就无法再次缩小以在整个大脑的背景下看到这些细胞。

搭建桥梁

在过去的 17 年里,科伦伯格和她的同事一直在努力弥合这一差距,方法是绘制猕猴边缘系统的图谱。这些灵长类动物的大脑中有 60 亿个神经元,而人脑中有 860 亿个神经元。但在研究模型中,猕猴是我们最近的亲属——比小鼠或果蝇亲近得多。

科伦伯格的团队正在开发一个 3D 坐标系统,以对齐猕猴大脑中各种类型的神经影像数据,从全脑 MRI 连接到单细胞共聚焦数据,以及某些区域的亚细胞分辨率电子显微镜数据。NIMH 情感、社会行为和社会认知项目负责人珍妮·西蒙斯说,他们正在创建一个“允许您在一个图像上选择一个点,并在另一个分辨率下查看同一点的系统”,该项目部分资助了科伦伯格的项目。西蒙斯说,这类似于谷歌地球——例如,你可以从 40 倍直接放大到 1 倍,但不一定能访问中间的放大倍数。

使用 20 倍共聚焦镜头绘制整个猕猴边缘系统的图谱将需要海量数据集——每只动物超过 600 太字节。到目前为止,该团队已收集了约 100 太字节的数据,这些数据可以从网络连接的存储设备访问,该设备将本地 30 太字节服务器与云存储相结合。科伦伯格说,研究人员可以使用缩减的数据集和一台好的笔记本电脑来解决一些问题。但操作大型 3D 共聚焦数据集需要特殊的工作站,即便如此,渲染单个平铺图像也很慢。

纽约市西奈山医学院的神经解剖学家帕特里克·霍夫说,这项尚未发表的工作“有可能成为连接组学领域的一项重大进步”,他以前曾与科伦伯格合作过。科伦伯格说,例如,这些数据可以帮助科学家将似乎在某些精神疾病(如精神分裂症或自闭症)中重要的基因与特定的脑布线异常联系起来。

随着科学家们突破可能的界限,他们正在创建计算管道来处理不断扩展的工作流程,并开发新的工具——例如 Thunder 和 BigDataViewer——来共享和可视化结果数据。但仅靠工具开发还不足以缓解神经科学家的数据困境。还需要文化转变。斯坦福大学的心理学家罗素·波尔德拉克说,很难“让人们放手他们的数据”,他使用神经影像学来研究学习和记忆。他说,这可能是“一代人的事情”:千禧一代“比我这一代人更热衷于共享代码和数据”。波尔德拉克担心,顶尖人才可能会因为对科学“不符合他们认为应该具有的价值观”感到沮丧而离开这个领域。

但态度正在缓慢转变——首先是对软件的态度,然后是对数据的态度。传统上,神经影像实验室花费大量时间下载和安装相同的测试版软件,“破解各种软件故障和计算瓶颈,编写冗余的代码块,并实施他们自己的数据管理解决方案来解决相同的问题”,加州大学戴维斯分校的神经科学博士生大卫·格雷森说。更糟糕的是,许多非研究任务被下放给学生、博士后和年轻研究人员,他们往往精通技术,但“并非报名成为系统管理员”,格雷森说。

国际神经信息学协调机构 (INCF) 是一个总部位于斯德哥尔摩的非营利组织,成立于 2005 年,旨在为全球大脑研究人员开发和推广标准、工具和基础设施。几年后,美国启动了神经影像信息学工具和资源交换中心 (NITRC),作为一个共享神经影像计算工具的平台。NITRC 项目经理妮娜·普鲁斯说,那时“没有人甚至考虑过共享数据,只考虑过软件”,NITRC 总部设在华盛顿特区。

这种情况在 2009 年底发生了变化,当时纽约州奥兰治堡内森·S·克莱恩精神病研究所的研究人员将来自 1,200 多名志愿者的静息态功能性 MRI (fMRI) 数据发布到 NITRC 中,这些数据是为 1000 功能连接组项目 (FCP) 收集的。这些只是汇总的原始数据——但在几周内,NITRC 用户已下载该数据集 700 次。“人们对可以自由下载和使用的数据有着如此强烈的潜在需求,”普鲁斯说。

一旦作者清理了 fMRI 数据并使其可搜索,下载量就飙升至数千次。在数据发表2后,该论文在最初 2 周内记录了 1,000 多次下载。同年,独立作者——他们下载了该联盟的 fMRI 数据用于自己的分析,但未参与数据收集——的第一篇论文也发表了3

自 HCP 于 2013 年 3 月首次发布数据集以来,数十家外部实验室发表了分析该项目数据的论文。密苏里州圣路易斯华盛顿大学医学院的项目外联协调员詹妮弗·埃拉姆说,HCP 总共发布了约 50 太字节关于 1,000 多人的脑影像数据。

然而,很少有小规模项目发布他们的数据——可能是因为他们没有必要这样做。一些期刊要求公开所有支持已发表研究结果的数据,但总的来说,数据共享并没有得到激励。格雷森说,没有“强大的动力”去做那一点额外的工作。

传统的学术模式也无济于事。研究人员通常独立于他们小组中的同行,提出假设并研究自己的想法。华盛顿州西雅图艾伦脑科学研究所的曾红葵说,在这种环境中,研究不会将人们聚集在一起——而是将他们分开。“你需要让自己与众不同。为了在该领域确立你的身份,你必须做一些与其他人不同的事情。”

曾红葵于 2006 年加入艾伦研究所,寻求文化变革:该研究所制定了雄心勃勃的五年目标,要求团队协作和系统地工作,推动项目完成,而不是像在个人实验室中那样零敲碎打。

就大脑而言,“完整”可能是一个不断变化的目标。但神经科学工具集也是如此。蒋安世在他的神经科学学会演讲中感叹,绘制一半果蝇大脑图谱花了十年时间。蒋安世的团队与台湾中央研究院的物理学家合作,开始使用一种称为同步加速器 X 射线断层扫描的技术来大幅提高数据采集速度。

蒋安世说:“对包含数千个高尔基染色单个神经元的果蝇大脑进行成像只需不到 10 分钟。”他的团队现在正在小鼠和猪身上尝试这种方法。他们计划在一个单一平台上整合共聚焦和 X 射线图像,科学家可以从中下载数据。“借助同步加速器 X 射线成像,以单神经元分辨率绘制人类连接组图谱现在更加现实,”蒋安世说。将图谱与其他数据融合有多容易还有待观察。

本文经许可转载,并于2017 年 1 月 25 日首次发表

© . All rights reserved.