科学家应该多大程度地自由分享他们的数据?

开放科学运动倡导透明化,但分享多少以及分享的速度仍然存在争议

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定代表《大众科学》的观点


在研究生院刚开始的时候,我决定研究癫痫发作如何损害大脑。我当时有点为难:我想用磁共振成像(MRI)来研究这种损害,但我无法获得癫痫患者的MRI数据。即使我有了这些数据,我也不太了解编程、数学或物理,所以我无论如何也无法从无到有地创建分析数据的软件工具。所以,我充满动力和活力,想研究癫痫,但我没有数据或工具来工作。

但是其他人有。在我的导师的帮助下,我与德克萨斯大学休斯顿分校和纽约大学的研究小组建立了合作关系,他们免费分享了高质量的癫痫患者MRI数据。我与牛津和哈佛的研究人员进行了联系,学习如何使用他们的MRI分析程序,他们也免费分享了这些程序。这种分享数据和软件工具的模式给我留下了深刻的印象。每个人都受益;我能够研究癫痫,我的合作者能够重复使用原本会被束之高阁的数据,而我们正在努力改善治疗患者的方式。

大约在这个时候,我第一次听说了开放科学运动——越来越流行的信念,即科学方法和数据应该免费提供。总的目标是使科学尽可能地民主化和可及。为了做到这一点,开放科学家将其数据、方法和代码(分析数据的计算机程序)公开提供给公众。开放科学家也与他们的同事分享,正如我作为一名研究生所发现的那样,这对科学来说是一个巨大的福音。


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来关于塑造我们当今世界的发现和想法的重大报道。


我也听到了一些警示故事,说开放科学运动也有阴暗面,“开放性”有时会演变成欺凌和盗窃。有人将开放科学运动比作共产主义:原则上是好的,实践中是不可能的。在非正式场合——晚餐时、喝酒时——我被提醒说科学是一个竞争激烈的行业。

但我直到今年7月初才开始担心这个问题。

以开放科学之名公开羞辱

杰克·加兰特是加州大学伯克利分校的一位认知神经科学家,他在2016年向我们展示了飞蛾播客对我们大脑的影响。几年前,他向我们展示了他可以——仅基于大脑活动的测量——实际重建人们正在观看的电影的图像。如果他生活在三百年前,他可能会被宣布为巫师。

加兰特的项目是科学界的本垒打。它们很吸引人——以至于他对飞蛾播客的分析发表在《自然》杂志上,并附有一段专业制作的商业广告风格的视频。《怪诞经济学》和NPR采访了他。

加兰特成功的背后是大量的资金和数据。科学家提出研究想法并竞争拨款。资金使科学家能够收集数据,然后让他们测试他们的想法。发表,重复。在过去的二十年里,加兰特成功的想法使他成为一位杰出的神经科学家,他经营着一个成功的实验室,这有点像科学企业中的高级官员。

因为他和他的工作如此出名,当加兰特的同事在推特上公开羞辱他时,我感到特别震惊。

7月4日,加兰特(@gallantlab)正在推广开放科学,在推特上大谈免费访问软件平台。加兰特认为,如果免费代码只能在昂贵的软件程序中运行,那么免费提供代码是没有意义的,他继续说,这“不是开放代码,它是一个围墙花园”。

“不错的建议。但是数据呢?”理论物理学家曼尼罗·德·多梅尼科(@manlius84)第二天在推特上说,“我们一直试图访问你在2016年《自然》杂志上使用的数据,但我们没有收到任何回复。#开放代码 #开放数据

“嗨,曼利奥,很抱歉没有回复,”加兰特回复说。“最初的作者仍在撰写关于这些数据的进一步初步研究论文,所以这些数据尚未发布,但我们预计很快就能发布。”

“‘我们仍然希望独家发表更多论文’不是一个很好的借口。你在手稿中注明了数据限制吗?”安德烈·布朗(@aexbrown)在推特上说,他指的是《自然》杂志的政策,该政策规定,在发表时,作者应“立即”公开提供其数据、代码和协议。(请注意“发表时”这句话。)

看来加兰特违反了开放科学的基本原则——甚至可能违反了《自然》杂志的政策。加兰特是一位值得尊敬的科学家还是一个狡猾的伪君子?

在随后的推文中,德·多梅尼科感叹说,加兰特的论文给了他一系列他想测试的想法,但他无法测试,因为他需要加兰特的数据,“这并没有促进人类知识,”德·多梅尼科断言道。

加兰特据理力争:“你为什么要假设你的项目比我们用这些数据继续进行的项目更好?我的学生和博士后都是一群很棒的人,他们正在进行的项目很棒!但我不能让他们被抢先。”

后来,加兰特重申了他对开放科学的承诺。他指出,他过去曾分享过许多数据集,并详细说明了他没有(尚未)分享这个特定数据集的原因:复杂的数据需要时间来理解,他的实验室希望在向全世界发布之前更好地理解这些数据。本质上,加兰特认为,既然他的实验室竞争并赢得了收集数据的资金,然后又努力收集数据,他们应该首先拥有研究这些数据的权利。

(学术界的)推特圈一片哗然。加兰特的“我们正在工作”被认为是“无稽之谈”、“可耻的”和妄想。这场辩论持续了近两周,并在多个话题中蔓延。加兰特的公开羞辱被《自然》网站转载,一个名叫理查德·参议院(可能是笔名?)的人在上面大声疾呼:“杰克·加兰特拒绝分享数据(违反了《自然》杂志的政策和他的美国国家科学基金会拨款)。”后来,新西兰的生物信息学研究员大卫·埃克尔斯将加兰特的推文混搭到《自然》杂志的网站上。有些人呼吁《自然》杂志抵制加兰特并撤回他的论文。

在来回的争论中,我一直盯着我的推特。这是我第一次看到来自键盘或智能手机的数字勇气背后,有资历的学者公开羞辱他们的同事。这是我第一次看到开放科学的原则被用来损害某人的职业生涯。

这让我开始质疑开放科学的理想:一个高产的实验室撰写一份拨款申请,以资助一系列研究和新工具的开发。他们花费数年时间收集数据并为这些拟议的研究构建工具。然后,他们完成项目的一部分并开始发布结果。他们是否应该被要求向社区发布他们的数据?如果是,何时发布?谁拥有这些数据?期刊在强制数据共享方面有什么权利?

临床试验的开放

开放科学的第一个例子之一始于20世纪90年代临床试验面临的实际问题:临床试验费用昂贵,耗时很长,并且代表了研究人员和自愿参与者(通常是患者)数千小时的工作。如果没有一个中心化的方法来记录正在进行和已完成的试验,两个小组或公司可能会在不知情的情况下测试同一种药物。

一项试验可能会结束,并且因为结果为空而从未发表;然后另一个小组可能会误入相同的药物死胡同。此外,人们普遍担心(现在仍然如此),从临床试验中获得和报告的数据需要更高的透明度、问责制和公正性。

1997年,美国食品和药物管理局(FDA)开始要求临床试验在ClinicalTrials.gov上注册。这使得未来的试验能够查看注册表并确保没有人已经在进行相同的工作。

与此同时,负责批准欧盟内药物的欧洲药品管理局(EMA)开始增加公众对临床试验数据的访问权限。尽管有关试验中个别参与者的数据最初被认为是机密商业信息(因此不公开),但EMA随后改变了立场,并引用(除其他原因外)公共利益。他们认为,公众越能访问这些临床试验信息,就越能理解这些数据,从而用于改善患者护理。

美国政府没有效仿。自2007年以来,美国仅要求“及时提交和发布摘要结果信息”,而不是参与者级别的数据,而且这仅限于接受美国国立卫生研究院(NIH)资助的试验。美国将参与者级别的数据视为“专有数据”,由任何收集数据的机构拥有。它不属于研究人员或研究人员的实验室;它不属于科学界或最终发表结果的期刊。

在美国,数据是受法律保护的知识产权,可以导致专利。理论上,专利的存在是为了保护和鼓励将科学思想商业化所需的财务投资。由于公开知识产权可能会危及可专利性,因此公开数据可能会破坏将一个巧妙的科学想法转化为可以改变生活的有形产品的机会;换句话说,它可能会破坏科学企业的主要目标之一。

当然,并非所有科学研究都会产生可获得专利的知识产权(例如广义相对论),但有时会产生(例如MRI);因此,这些讨论很复杂。

甚至立法者也对这种复杂性进行了权衡:“我理解,为了使数据共享对研究界具有实用性和有用性,需要解决许多政策、隐私和实际问题,”美国参议员伊丽莎白·沃伦在2016年在《新英格兰医学杂志》上写道,“但面对这一挑战而退缩的代价太高了。”沃伦的社论随后祝贺了期刊编辑最近做出的规避这些“实际问题”的决定。

今年早些时候,期刊编辑们联合起来,决定如果科学家、资助机构甚至国会都不能同意要求科学家公开他们的数据,他们可以将其作为发表的要求。

期刊编辑作为仲裁者

2016年2月,由14名成员组成的国际医学期刊编辑委员会(ICMJE)在《美国医学会杂志》上发表了一篇社论。他们宣布,为了被其成员期刊考虑发表,作者必须在研究中公布其去身份化的参与者级别数据,“最迟在发表后6个月”。

同年晚些时候,在2016年8月,一个独立的国际联盟(代表来自33个国家的282名研究人员)在《新英格兰医学杂志》上发表了一篇持异议的回应,认为6个月的时间太短。

该小组写道:“我们认为6个月的时间不足以进行充分理解数据和发表几篇文章所需的广泛分析”。在任何大型资助申请中,科学家都会概述他们希望通过多次分析来研究的多个假设。描述这些分析通常需要一系列文章,当然还需要时间。

如果被要求在首次发表后放弃对数据的独家访问权,研究人员“实际上将与那些没有为进行试验所需的实质性努力和通常多年的工作做出贡献的人竞争。”这个持异议的小组——在仍然非常支持开放科学的同时——认为应该允许研究人员至少有2到5年的时间来公开其临床试验数据。

期刊作为执行者

2015年,《科学》杂志刊登了一篇由开放科学中心透明度和开放性促进(TOP)委员会准备的“科学标准”社论。为了推动新的开放科学标准,该社论首先引用了一项2007年对3247名美国国立卫生研究院(NIH)资助的科学家的调查,该调查报告称存在普遍的“规范失调”,这意味着人们的理想和行为不一致。

在导致这种失调的(许多)可能原因中,TOP委员会列举了三个:“透明度、开放性和可重复性很容易被认为是科学的重要特征……[然而我们有一个]学术奖励系统,它没有充分激励开放实践。”TOP委员会(回顾一下,O=开放性)假设研究人员希望更开放,但感叹“没有通过普遍的科学政策和程序来协调个人和集体激励的集中手段。”

他们创建了一个方案,其中期刊将根据其对开放科学的承诺进行评分。从0(无开放科学政策)到3(数据和材料的发布是出版的先决条件),其想法是科学家会希望在评分较高的期刊上发表文章。就像餐馆的卫生检查等级一样,只是针对期刊。

TOP的建议增加了强制数据共享的范围,并改变了负责的监管机构。政府法规仅限于临床试验,而TOP方案建议所有科学数据都在发表时发布。他们将执行数据管理计划(描述何时/共享什么数据)的权力从资助机构和机构之间的合同安排转移到期刊的出版政策。在这种情况下,期刊不允许科学家在不发布数据的情况下发表文章。我认为这种范围和权力的转移意义重大,也是开放科学运动崩溃的地方。

谁从开放数据中受益?

我是一名临床医生,对我来说,临床试验具有明显的紧迫性:临床试验塑造着我的患者护理,因此我希望确保最新的结果是透明且可重复的。如果我基于有偏见的、分析糟糕的试验做出临床决策,最坏的情况下,我可能会害死人,最好的情况下,我可能无法帮助人们。开放临床试验数据的紧迫性令人信服;我受益,我的患者也受益。

但并非所有数据都具有这种紧迫性。Gallant的数据显示Moth播客如何影响大脑,这与生死攸关的临床决策相去甚远。我作为研究人员所做的大部分工作都是追求知识,远非生死攸关。

2016年,人类脑图谱组织(OHBM)发布了一份报告,其中描述说:“数据共享是可验证和高效研究的基石之一,它允许其他人重复研究结果,并最大限度地提高已花费的研究资金的价值。”该报告继续指出:“无论共享什么,一个全面的数据管理计划——包括所有作者、合作者、资助机构和出版实体——都至关重要,应从研究一开始就考虑。如果没有这样的计划,在文件夹杂乱无章且研究生或博士后离开后,数据可能会有效地丢失。”

(注意:数据管理计划应在研究开始时的原始合同中确定,而不是为了满足期刊或推特上的暴民。)

这是一个直接的经济学论点:汇集我们的资源更具成本效益。在我2015年关于脑成像数据库的文章中,我引用了一个保守估计,在1990年至2011年之间,进行了超过22000项功能性磁共振成像研究,估计扫描时间为144000小时(大约12000个数据集,每个数据集约有12个受试者,每个受试者约一小时)。在耶鲁大学,一次核磁共振扫描的费用约为每小时600美元,因此仅数据一项就代表着约8640万美元的投资。因此,数据共享对科学事业很有意义;我们都受益。

但我仍然不相信共享大多数形式的科学数据具有紧迫性——尤其不是为了公共利益的紧迫性。我确信其他科学家感到迫切需要分析他们不拥有的数据集——特别是如果一个特别优秀的数据集的结果可以在《自然》杂志上发表并使他们成名的话。

在推特辩论的某个时刻,对开放科学的原则性呼吁演变为对公开羞辱的原则性辩解,并且在某种程度上,要求Gallant在他准备好之前发布他的数据。Gallant本人尚未完成对他自己想法的测试和扩展:他2016年的《自然》论文不是最终结局,而是一个进展更新。因此,这种紧迫性似乎并非源于推进人类知识的愿望(审慎将允许Gallant完成他承包的工作),而是源于科学竞争(在这种竞争中,有人可以在Gallant本人能够做到之前改进Gallant最初的《自然》报告)。

缺乏明确、精确的开放科学政策——来自Gallant的资助机构、Gallant本人、来自《自然》杂志——允许足够的模糊性来为愤怒辩护。以及公开羞辱。

在Gallant的推特攻击中,最让我担心的是要求《自然》杂志因Gallant不共享他的数据而制裁他,好像《自然》杂志是开放科学的执行者。此外,尽管《自然》杂志没有资助Gallant的研究,也没有在Gallant最初的数据管理计划(Gallant的机构和他的资助者之间的合同)中发言权,但推特用户希望《自然》杂志制定和执行自己的数据管理计划;一个重新编写和执行联邦法律的开放科学独行侠。

对于期刊来说,这是一个站不住脚且具有讽刺意味的立场。期刊是在出版过程的每一步都获利的商业机构——科学家们付费提交和发表他们的工作,其他人则付费访问。一方面,要求科学家发布他们的数据可能对期刊来说是好事——优秀的数据集会产生优秀的论文。《自然通讯》今年7月发表了一份关于此事的报告。另一方面,教条式地坚持不受欢迎的商业策略可能会导致期刊的消亡,因为其他竞争期刊会满足市场需求。也许这就是为什么大多数期刊不执行数据共享政策的原因。

期刊对开放科学的承诺必然是脆弱的。如果科学家支付高达5000美元的费用,期刊就会免费提供论文。否则,这项工作将保留在付费墙后面。例如,《自然》杂志最终版本的Gallant 2016年文章就位于《自然》的“[付费]围墙花园”内。花32美元,你可以免费访问它。

关于数据共享的进一步阅读

开放数据项目网站描述了开放数据的核心原则,以及这些原则如何应用于美国政府收集的(非秘密)数据。

《新英格兰医学杂志》网站策划了一系列关于数据共享的优秀社论,这些社论探讨了“来自医学界的各种观点”。其中一些是开放访问的。我最喜欢的社论(我的大部分历史概述都来自这篇文章)

为负责任地共享临床试验数据做准备,《新英格兰医学杂志》2013;369:1651-1658 DOI: 10.1056/NEJMhle1309073。

© . All rights reserved.