首位白宫首席数据官探讨其首要任务

DJ Patil 谈论如何在保护数据免受滥用的同时,更好地利用公共和私人信息


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和思想的具有影响力的故事的未来。


数据科学对于华盛顿特区来说并非完全新鲜事物,对于最近被任命为美国首位首席数据科学家的 DJ Patil 来说亦是如此。奥巴马总统政府在近六年前启动了 Data.gov,并要求所有机构至少在公众可访问的网站上发布三个“高价值”数据集。现在,Patil 的工作至少部分是确保政府继续在各个领域发布数据,同时确保信息不被滥用。
 
Patil 在科技公司和风险投资公司 Greylock Partners 担任数据专家多年后重返华盛顿的首要任务是白宫的精准医疗计划。奥巴马总统于一月份启动了这项公共卫生计划,并在其 2016 年预算中投资 2.15 亿美元,以帮助根据考虑到个体患者基因、环境和生活方式差异的信息来预防和治疗疾病。该计划加速开发新的癌症治疗方法的能力不仅取决于科学家向该项目贡献他们最新的研究数据集,还取决于患者自愿提供他们自己的个人健康信息。Patil 将在确定研究人员、医疗机构和患者如何在不牺牲隐私的情况下共享数据方面发挥不可或缺的作用。
 
Patil 还被任命为白宫科学和技术政策办公室的数据政策副首席技术官,大约二十年前,他作为马里兰大学助理研究科学家首次来到环城公路地区。作为该校的博士生和教员,他使用美国国家海洋和大气管理局发布的开放数据集来帮助改进数值天气预报。Patil 还曾在国防部短暂指导社交网络分析工作,以了解对美国利益的新兴威胁的性质。大众科学与 Patil 谈论了他的新工作。
 
[以下是经过编辑的采访记录。]
 
您作为国家首位首席数据科学家的使命是什么?
[奥巴马总统]在他的整个执政期间一直倡导数据科学——他实际上是这个国家的首席数据科学家。他是第一位使用分析仪表板来跟踪 [信息技术] 项目的总统,并且他在 2013 年签署了一项行政命令,呼吁使政府信息公开且机器可读。Data.gov 网站 [该网站使联邦、州和地方数据公开可用] 也是在本届总统的关注下启动的。
 
您的行动指令与奥巴马政府已经启动的数据科学倡议(例如 Data.gov)有何不同?
Data.gov 只是其中一个组成部分。我们看到了我们的三个优先事项。目前我清单的首要任务是精准医疗计划。科学使我们能够解锁人类基因组。现在,我们希望将其与数据科学的力量相结合,数据科学使用机器学习等新技术以及现在关于个体患者的大量可用数据(无论是通过他们的手机还是他们环境中的其他传感器)。挑战在于将这些结合在一起,从而提出思考医疗保健和医疗治疗的新方法。
 
您的第二个优先事项是什么?
我的第二个优先事项是开放更多数据,并使其可供人们 [政府和公众] 构建研究、移动应用程序和基于该信息的可视化生态系统。构建在开放数据之上的经典示例之一是国家气象局所做的事情。他们每天创建 21 太字节的数据,并利用大量的科学和技术,以一种像打开手机上的应用程序一样容易访问的方式向公众提供这些数据的子集。这极大地影响了您的生活,无论您是计划日常活动还是查看航班状态——世界都围绕着它运转。
 
您的前三项优先事项清单的最后一部分是什么?
[中断]
第三个主要优先事项是将更多的数据能力注入到政府的各个机构中。我们看到数据科学家和首席数据官在美国国立卫生研究院以及 [卫生与公众服务部] 卫生与公众服务部内部不断涌现。商务部上周宣布了其首位首席数据官 [伊恩·卡林]。我们必须决定如何利用我们在政府各部门的数据科学和统计小组中看到的最佳实践来开发新服务。
 
这些新服务是仅供政府使用,还是也向公众开放?
两者都有。这些服务对科学家和公民都很有价值,因为我们看到人们开始关注各种因素如何影响他们的健康。例如,人们开始考虑气候数据及其对当地的影响——对他们的过敏或当地莱姆病的威胁——随着气候随时间推移而变化。这些是来自截然不同的组织的数据集,但当它们结合在一起时,可以提供非常强大的信息。将数据结合在一起以提供新服务的另一个超级有力的例子是在应对灾难时。一个地方政府部门可能能够绘制出资源的位置,例如燃料站,另一个组织(例如 [联邦紧急事务管理局])可以将其与有关天气或洪泛区的数据相结合,以改善其对某种危机的响应。
 
鉴于过去几年对政府数据收集提出的担忧,您计划如何确保政府既保护又尊重公众的隐私?
我们使命宣言中的关键词是我们如何负责任地为所有人释放数据的力量。这意味着以合乎道德的方式并考虑到隐私来使用和提供数据。[例如] 最近发布的白宫大数据报告中提出的关键举措之一是解决我们如何看待学生数据的问题。我们如何确保数据不仅仅被用于营销目的?另一个说明负责任地使用数据的倡议与去年的 [联邦贸易委员会] 关于数据经纪人的报告有关,并跟进其关于该行业应更加透明和对消费者友好的呼吁。具体到精准医疗计划,总统多次声明这将是一个参与者优先的项目,并且参与者——无论是在学术界、工业界还是政府部门——在确定系统如何运作时都将平等地坐在谈判桌旁。
 
您能否更详细地说明您所说的负责任地使用数据是什么意思?
负责任地使用数据的一个重要部分是弄清楚适当的透明度级别,以便人们了解他们的数据是如何被利用的。以精准医疗为例,我们有一个自愿系统。贡献数据的人应该知道他们的数据被用来做什么,以及如果他们想将数据从系统中移除意味着什么。
 
在数据科学领域,到目前为止,您最自豪的成就是什么?
我最自豪的是我上次在学术界和政府部门所做的工作。在学术界,它是:我们如何以新的方式思考天气预报,并表明它不像人们想象的那么混乱?如果有一个数据项目影响到每个人的生活,那就是天气,有时会造成极其可怕的后果。即使对改进天气预报产生很小的影响,也能惠及如此多的人。在互联网规模上,如果我们能够接触到一百万、一千万、一亿人,如果运气好的话,我们会感觉非常棒。从事天气系统工作意味着我得以影响数十亿人的一生。
 
上次我在政府部门时,我们开始了一个名为 伊拉克虚拟科学图书馆 的项目,该项目成为伊拉克高等教育系统的支柱之一。它在四五年前被交还给伊拉克政府。有机会从事这样的工作,并亲眼目睹它对人们生活产生的直接影响,以及它如何帮助他们构建生活,这种回报甚至超过了我能够在其他地方建立的最好的东西。我感到非常幸运能够有机会再次做这样的事情。有时人们会忘记,最大规模的问题存在于公共服务领域,如果您拥有技术技能和机会将其应用于这个领域的问题,那么没有什么比这更令人欣慰的了。

© . All rights reserved.