关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。 通过购买订阅,您将帮助确保未来能够继续产出有关塑造我们当今世界的发现和思想的具有影响力的报道。
在互联网上搜索有时感觉像是在不断扩大的草堆中寻找一根正在缩小的针。 为此,一种新的信息分类方法可能会有所帮助,该方法依赖于扫描文档中特定词语使用频率的突然“突发”。 康奈尔大学的乔恩·克莱因伯格昨天在科罗拉多州丹佛市举行的美国科学促进会年会上描述了这项技术。
克莱因伯格设计新系统的灵感来自他被大量电子邮件淹没的收件箱。 在尝试过滤邮件时,他推测,每当出现重要主题时,与之相关的关键词就会在邮件中以越来越高的频率出现。 因此,搜索使用频率急剧且快速增加的词语——或“突发词”——可能有助于识别重要主题,并提供一种对邮件进行分类的方法。 克莱因伯格设计了一种搜索算法,该算法既分析词语出现的次数,也分析其频率随时间推移的增加率。
为了测试他的方法,克莱因伯格使用该算法仔细检查了自 1790 年以来所有国情咨文演讲的全文。 程序识别出的“突发词”与某些演讲发表时发生的重大事件相符。 例如,在美国革命之后,“民兵”和“英国人”是标记词汇之一,而“原子”在 1947 年至 1959 年间显示出显著的“突发”。 克莱因伯格指出,这些趋势对人们来说是直观的,但是一台缺乏历史背景的计算机仍然仅通过扫描原始文本就成功地识别了它们。 他认为,这种新方法可以通过更好地识别查询的时间背景来帮助缩小网络搜索范围。 此外,社会学家或营销人员或许能够通过监控网络日志或发送给消费者网站的电子邮件中词语的“突发性”来更巧妙地识别新兴趋势。