广受欢迎的预印本服务器 arXiv.org,物理学家、数学家和计算机科学家经常在同行评审前上传手稿以公开分享他们的研究成果,现在拥有 超过 100 万篇 研究论文。
该存储库于 1991 年 8 月作为“电子公告板”推出,就在万维网兴起之前。它花了 17 年时间积累了 50 万份手稿,但仅用了 6 年多时间就使其拥有量翻了一番。
研究人员现在每月向 arXiv 提交约 8,000 篇文章,平均每天超过 250 篇。该网站的管理员在经过简短的质量控制检查后,以批次形式提供原始的、未经同行评审的手稿,例如由 130 名志愿者版主进行粗略的适当性浏览,以及自动过滤以检查与现有论文的文本重叠情况。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来关于塑造我们当今世界的发现和想法的有影响力的故事。
在管理员放完假并于圣诞节前夕(12 月 24 日)下班后更新服务器上的手稿后,该网站于 12 月 29 日达到了 100 万篇论文。
从 arXiv 主页上目前显示的论文运行计数来看,具有里程碑意义的第 100 万篇论文是 '使用联合惩罚的协方差和逆协方差矩阵的良好条件且稀疏的估计',该论文由密歇根州立大学东兰辛的 Ashwini Maurya 于 12 月 26 日格林威治标准时间 7:34:19 提交。但实际上,该网站的第 100 万篇文章无法如此精确地确定,arXiv 创始人、纽约伊萨卡康奈尔大学的物理学家保罗·金斯帕格说。由于提交的索引方式以及偶尔出现的重复或垃圾提交(现在可以通过筛选软件发现,但在该网站的早期更容易遗漏),该计数实际上是一个略微模糊的估计。
一场革命的开始
arXiv 海量的免费手稿现在与科学期刊中发表同行评审手稿的较慢系统并行运行。但当当时在新墨西哥州洛斯阿拉莫斯国家实验室工作的金斯帕格建立了一个电子服务来分享“为数百位在高能物理子领域工作的同事和朋友”的预印本文章时,这一切还很遥远,正如他在 2011 年为 arXiv 二十周年纪念日撰写的《自然》文章中所述。自成立以来,该服务器已扩大其覆盖范围,涵盖物理学中的许多其他领域,以及数学、计算机科学、统计学和金融与生物学的定量方面。
arXiv 服务器的受欢迎程度在不同学科之间有所不同。一些物理学家最初不愿意在正式的同行评审出版物之前分享他们的结果,但当他们意识到快速公开他们的工作的好处时,他们就接受了这个想法。例如,2008 年发现的一类铁基超导体使许多凝聚态实验学家涌入该网站,“他们被建立优先权并让他们的结果出现在理论家面前的需求所征服”,金斯帕格在他的 2011 年的文章中写道。
如今,许多重要的发现首先发布在该网站上。当隐居的俄罗斯数学家格里戈里·佩雷尔曼证明庞加莱猜想(一个关于三维空间性质的陈述,它抵抗了近一个世纪的证明)时,他只在 arXiv.org 上发布了他的论文,而没有在其他任何地方发布。(佩雷尔曼后来 拒绝了 因这项工作而获得的菲尔兹奖)。去年,该网站 在生物学领域激发了一个模仿者,由纽约冷泉港实验室出版社推出的 bioRχiv.org。
arXiv 正在以前所未有的速度扩张。12 月 19 日,它 宣布 将其论文标识号加长一位数字,以应对预计每月超过 10,000 次提交的峰值。它现在每月收到超过 1000 万次下载请求。
这一切都不是免费的,但仍然相对便宜。预计的年度成本 在 2014 年,人员和服务器的支出为 885,987 美元,每增加一篇论文不到 10 美元。其中大部分资金由成员机构(在康奈尔大学图书馆于 2010 年发出呼吁后)和位于纽约的私人基金会西蒙斯基金会资助。
研究人员还在挖掘 arXiv 存储库,以研究科学家如何交流他们的工作。本月早些时候,金斯帕格和康奈尔大学物理学研究生丹尼尔·西特隆报告了科学家重复使用其他论文文本的频率,方法是分析 1991 年至 2012 年在 arXiv.org 上发表的约 757,000 篇文章中 7 个词的短语的重叠情况。其他研究人员正在挖掘 arXiv 文章,以 绘制趋势图,了解科学思想的受欢迎程度,就像谷歌图书的数字化使人文学科的研究人员能够发现英语文学中特定短语的出现频率一样。
金斯帕格说,一百万篇文章是一个自然的里程碑,但物理学家可能更喜欢其他数字标志。“1,000,000 的意义仅仅在于我们恰好有 10 个手指的 10 进制,而有些人会认为 2^20 = 1,048,576 是一个更重要的数字,”他说。“这也是兆字节中的字节数。”
金斯帕格不必等太久——按照目前的增长速度,该网站应该会在夏天达到这一点。
本文经许可转载,并于 2014 年 12 月 30 日 首次发表。