2013年6月26日

博客文章与未来更高引用次数相关吗？

本文发表在《大众科学》的前博客网络中，反映了作者的观点，不一定代表《大众科学》的观点。

博客文章与未来更高的引用次数相关吗？在许多情况下，答案是肯定的，至少对于 Researchblogging.org (RB) 而言。Judit Bar-Ilan、Mike Thelwall 和我已经在我们之前的文章中使用了 RB，这是一个科学博客聚合器，用于发布引用同行评审研究的帖子。

RB 有许多优点（如果您阅读过上一篇文章的帖子，您或许可以跳过这部分），其中最重要的是每个帖子末尾的结构化引用。它有人工编辑，因此我们不必检查垃圾邮件或伪科学博客。简而言之，RB 为我们提供了那些关心研究并熟悉研究，以正式方式引用研究的博主。当然，它也有其缺点；它是自我选择的，因此我们只能从那些费心注册的博主那里收集数据；此外，RB 以生命科学为导向，因此结果不一定适用于其他学科。

我们之前的研究发现，RB 博主的教育程度很高（32% 拥有博士学位），而且大多数（59%）以某种方式参与到学术系统中。因此，我们知道许多 RB 博主要么属于学术系统，要么曾经属于学术系统，并希望看看作为一个群体，他们所覆盖的文章是否会比同一期刊和年份他们没有覆盖的文章在未来同行评审文献中获得更好的引用。

关于支持科学新闻

如果您喜欢这篇文章，请考虑通过订阅来支持我们屡获殊荣的新闻报道。通过购买订阅，您正在帮助确保有关当今塑造我们世界的发现和想法的有影响力的故事的未来。

通常，我们区分博客提及和博客引用。博客提及是指博客中对学术材料的任何形式的提及，而博客引用是指以结构化样式（例如，APA、MLA）编写并出现在博客文章中的学术材料的提及。

方法

正如我之前所写，其想法是选取覆盖了同年文章的博客帖子，并查看这些文章作为一个整体，是否会比同年且同一期刊中未被覆盖的文章在稍后获得更多的引用。问题在于 RB 大约在 2008 年推出。由于我们在 2013 年初研究了引用情况，这意味着来自同行评审期刊的引用没有太多时间积累。我们从之前的研究（Glänzel & Schoepﬂin，1995）中得知，在生命科学领域（样本中大多数期刊和文章都属于该领域），文章的引用量在大约出版后三年达到峰值，包括出版年份（生物医学领域往往发展迅速）。这为我们提供了 2009 年和 2010 年进行研究。我们下载了 2009 年至 2010 年的所有 RB 数据，并查看了某一年所有报道同年文章的帖子（例如，2009 年的帖子覆盖 2009 年的文章）。2009 年有 4013 个此类帖子，2010 年有 6116 个。接下来，我们将样本限制为仅限于 2009 年和 2010 年期间在期刊上发表了 20 篇或更多文章的期刊。20 篇文章及以上的截止点是一个折衷方案 - 我们希望样本中有尽可能多的期刊，但也希望结果具有统计可靠性。20 的截止点在 2009 年剩下 12 个期刊，在 2010 年剩下 19 个期刊。在这两年中，最受欢迎的期刊是 PLoS One、PNAS、Science 和 Nature（不一定按此顺序）。

表 1 和表 2 显示了 2009 年和 2010 年的期刊。三个期刊（Current Biology、Journal of the American Chemical Society 和 Nature Neuroscience）未达到 2010 年的阈值，并且在旧期刊中添加了 10 个新期刊。

中位数- 对于每个期刊，我们计算了被博主覆盖的文章组的中位数和未被博主覆盖的文章组的中位数。我们使用中位数而不是平均值，因为同一期刊中文章的引用次数往往高度偏斜，而平均值会受到极端值的影响。在 2009 年的 12 个期刊中，有 10 个期刊的覆盖组的中位数高于未覆盖组。2010 年的 19 个期刊中，有 17 个期刊也是如此。

我们使用中位数进行统计检验（Mann-Whitney）。在 2009 年，12 个期刊中有 7 个期刊 (58%) 的中位数在 p<.05 时存在显着差异（引用窗口为 2009-2011 年；表 6 的列标题中存在一个错误，它说 2010-2012 年 - 请忽略，最终版本不会如此）。在 2010 年，19 个期刊中有 12 个期刊 (68%) 在 p<.05 时，引用窗口 2010-2012 年存在显着差异。我们还计算了 2009 年的 2010-2011 年引用窗口和 2010 年的 2011-2012 年引用窗口，以查看是否存在任何差异，但结果非常相似（文章中未显示这些引用窗口的数据）。

马丁：“但是为什么？为什么？我的意思是，为什么？为什么？”

道格拉斯：“四个极好的问题。”

客舱压力，“杜兹”

我们认为这主要是“群体智慧”在起作用。一个在该领域具有学术背景的庞大群体能够比编辑和 2-3 名同行评审员更准确地猜测哪些文章可能在该领域产生更大的影响，这是有道理的。请注意，博主在 2009 年（研究的期刊总共 887 项）和 2010 年（1394 项）之间的准确性有所提高。诚然，博主并非在所有期刊中都具有引用优势，但这可能与 20 篇文章的阈值有关。如果我们选择例如 50 篇文章的阈值，那么在 2009 年和 2010 年总共有 10 个期刊，其中只有 2 个期刊的结果不显着。

我们还研究了其他“为什么”；我们知道评论在高引用文章中占比过高，因此我们检查了与每个期刊同年的一般人群相比，博客覆盖的文章中评论是否也占比过高。但是，评论似乎在覆盖的文章人群中没有占比过高（尽管由于评论数量较少，我们无法获得统计显着性），因此这种推测失败了。

我们研究的另一个“为什么”是可能的媒体-博客联系。博客覆盖组和未覆盖组之间《新英格兰医学杂志》（NEJM）的中位数差异尤其高（2009 年为 172 对 56；2010 年为 138 对 51）。由于 NEJM 是一份精英期刊，其许多文章都在媒体上报道，因此我们想看看博主是否倾向于选择《纽约时报》和路透社也报道的 NEJM 文章。结果并不令人惊讶：2009 年的 26 篇文章中有 21 篇 (81%) 和 2010 年的 38 篇文章中有 20 篇 (53%) 被路透社和/或《纽约时报》报道。NEJM 文章的数量与之前的表格不同，因为有些文章被多个帖子覆盖，有些帖子覆盖了多个期刊文章，有些新闻文章覆盖了多个期刊文章。博主通常不会落后于主流媒体 - 大多数文章的新闻文章和博客文章之间的差异最多一个月。因此，至少对于 NEJM 而言，可能存在媒体-博客联系，尽管我们无法判断是哪种联系。但是，大多数期刊不像 NEJM 那样被媒体彻底报道，因此我们不能说博主是从媒体那里获得提示的。

该研究的主要局限性在于时间框架 - 我们只能选取 2009 年和 2010 年的帖子 - 以及文章数量相对较少。尽管存在这些局限性，但我认为结果相当有希望，并且很乐意在未来重复这项研究，看看结果是否成立。

该文章尚未正式发布，但将在《美国信息科学与技术学会杂志》（JASIST）上发表，目前可以在 Thelwall 教授的网站（PDF）中找到。

参考文献

Glanzel, W., & Schoepflin, U. (1995). 关于科学文献的老化和接收过程的文献计量研究。《信息科学杂志》，21(1)，37-53 DOI: 10.1177/016555159502100104

Shema H, Bar-Ilan J, & Thelwall M (2012). 研究博客和学术信息的讨论。《公共科学图书馆·综合》，7(5) PMID: 22606239

Shema, H., Bar-Ilan, J., & Thelwall, M. (印刷中)。博客引用是否与未来更高的引用次数相关？研究博客作为替代指标的潜在来源。《美国信息科学与技术学会杂志》。