“大数据”是否正在将科学人才吸入大型企业?

在过去的几年里,我们听到了很多关于“大数据”——据我所知,它只是披着光鲜外衣的数据挖掘——将如何彻底改变科学并帮助我们创造一个更美好的世界。* 这些说法让我感到非常熟悉。

加入我们的科学爱好者社区!

本文发表于《大众科学》的前博客网络,仅反映作者的观点,不一定反映《大众科学》的观点


在过去的几年里,我们听到了很多关于“大数据”——据我所知,它只是披着光鲜外衣的数据挖掘——将如何彻底改变科学 并帮助我们创造一个更美好的世界。* 这些说法让我感到非常熟悉。它们让我想起了 1980 年代混沌理论和 1990 年代复杂性理论(它只是披着光鲜外衣的混沌理论)所产生的炒作。混沌理论和复杂性理论的爱好者们承诺(并且仍在承诺)更强大的计算机加上时髦的新软件和数学将破解那些抵制更传统科学方法的难题。

数据收集、计算和搜索程序的进步已经在某些领域取得了令人瞩目的成果,尤其是在语音识别、语言翻译和人工智能的其他传统问题上。因此,对大数据的某些热情可能最终会被证明是合理的。但是,为了保持我那脾气暴躁、悲观厌世的形象,在这篇文章中,我将提出大数据可能正在损害科学,因为它正在诱使聪明的年轻人远离对科学真理的追求,转而追求利润。

一位神经科学博士后引起了我对这个问题的关注,他的研究涉及大量的数据处理。他希望保持匿名,所以我称他为弗雷德。在阅读了我最近关于科学文献不可靠性的评论后,他写信给我,建议我关注一个可能正在加剧科学困境的趋势。


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事的未来。


弗雷德写道:“我认为 2014 年重要的科学新闻报道将是科学界向工业界‘数据科学’的人才流失。直到几年前,至少在我的领域,最优秀的毕业生会找到教授职位,而不太成功的毕业生则会在工业界找到工作。现在情况正好相反。这是一个真正的趋势,而且意义重大。其中一个原因是,科学往往不会奖励那些最擅长开发优秀软件的研究生,而这正是科学现在所需要的……

“另一个原因,对我来说尤其重要,是学术界和工业界的研究质量。在学术界,期刊往往想要最有趣的结果,而不太关心结果是否真实。在工业界数据科学中,[你的]老板只想知道真相。这是一个更令人鼓舞的工作环境。我喜欢编写代码和分析数据。在工业界,我一天中的大部分时间都可以做这些事情。在学术界,似乎教员们必须花费大部分时间撰写资助申请和回复电子邮件。”

弗雷德发给我一个博客文章的链接,“大数据人才流失:为什么科学陷入困境”,这篇文章扩展了他的担忧。博主杰克·范德普拉斯是华盛顿大学天体物理学的博士后,他声称大数据是,或者应该是,科学的未来。他写道:“在广泛的学术领域,有效处理数据的能力正在取代其他更经典的科研模式……从粒子物理学到基因组学,再到生物化学、神经科学、海洋学、大气物理学以及介于两者之间的所有领域,研究越来越以数据驱动,并且数据收集的速度没有减缓的迹象。”

范德普拉斯认为,同行评审的科学成果日益不可靠,我在上一篇文章中提到了这一点,部分原因可能在于许多研究成果依赖于编写和记录不佳的软件。“不可重复性危机”可以通过擅长数据分析并可以与他人分享其方法的研究人员来缓解,范德普拉斯认为。

范德普拉斯说,问题在于,学术界在认识到数据分析人才的价值方面远远落后于大型企业。“成为一名成功的科学研究人员所需的技能与在工业界取得成功所需的技能越来越难以区分。当学术界以典型的惯性逐渐适应这种情况时,世界其他地方已经开始更大程度地拥抱和奖励这些技能。不幸的结果是,一些最有前途的后起之秀在学术界找不到自己的位置,而营利性工业界则张开双臂,准备好充足的资金。”

范德普拉斯和弗雷德,他们显然都是软件高手,可能稍微夸大了数据处理的科学潜力。弗雷德前面提到的关于工业界“只想知道真相”的说法,在我看来几乎是天真得可笑。[**见弗雷德在下面的澄清。] 对于企业来说,推销产品比真相更重要——这使得弗雷德和范德普拉斯描述的人才流失更加令人不安。

弗雷德就是一个典型的例子。他越来越对自己在脑研究领域的前景感到失望,于是报名参加了 Insight Data Science 的培训,该机构培训科学博士在工业界受欢迎的数据处理技能(并声称拥有 100% 的就业安置记录)。这项投资对弗雷德来说得到了回报,他刚刚在 Facebook 找到了一份工作。

*“大数据”应该被视为复数还是单数?我调查了我的学生,他们说是复数,所以我选择了复数。

**关于他对工业界老板想要“真相”的评论,“弗雷德”刚刚给我发邮件澄清:“我认为‘营销’和‘分析’之间存在区别,我或许应该更清楚地说明这一点。当涉及到向消费者营销产品时,我同意商业动机与说真话并不一致,这显而易见,没有人对此提出异议。但是,当涉及到企业内部的‘分析’团队时,动机与说真话非常一致。分析团队所做的事情包括:确定用户如何与产品互动,衡量用户参与度或销售额的趋势,分析产品中的故障点。这是大多数数据科学家所做的那种工作。”

***关于这个话题的几个后记:首先,我的史蒂文斯同事和前朋友李·文塞尔在下面的评论中指出,长期以来,工业界一直以丰厚的利润和摆脱终身教职和追逐资助的苦差事的承诺来吸引科学家离开学术界。是的。华尔街“宽客”只是这种古老现象的一种表现形式。那么,大数据人才流失有什么新鲜之处呢?它在程度或种类上与之前从学术界到企业的人才流失有何不同?好问题,李。我不知道,但我敢打赌大数据可以提供答案!(除非它受到某种哥德尔式自我分析限制。)

其次,大数据兴起的一个引人入胜的含义是,科学可能会越来越多地在不理解的情况下交付力量——也就是说,解决问题的方案。例如,大数据可以帮助人工智能研究人员构建能够下棋、识别人脸和交谈的程序,而无需知道人脑是如何完成这些任务的。生物学、物理学和其他领域的问题也可能是如此。如果科学不能产生洞察力,它还是真正的科学吗?(关于大数据可能带来“理论终结”的观点的有力反驳,请参阅萨宾娜·霍森菲尔德在下面提到的明智的博客文章。)

图片:美国国防高级研究计划局通过维基共享资源,http://commons.wikimedia.org/wiki/File:DARPA_Big_Data.jpg。

© . All rights reserved.