随着2019年接近尾声,准备迎接对年度最重要新闻故事的无休止总结。但是到2039年,这些故事中可能只有少数会被记住:新的研究表明,预测哪些事件将载入史册是多么困难。
哲学家亚瑟·丹托在1965年提出,即使是最博学的人,“理想的编年史家”也无法判断最近发生的事件的最终意义,因为它取决于尚未发生的连锁反应。宾夕法尼亚大学的计算社会科学家邓肯·瓦茨长期以来一直想检验丹托的观点。当哥伦比亚大学历史学家马修·康纳利建议分析1973年至1979年间发送的两百万份解密的国务院电报,以及其中0.1%被证明是历史上最重要的电报的概要(由历史学家在电报发送几十年后编纂)时,他得到了机会。
康纳利、瓦茨及其同事首先根据元数据(例如电报的紧急程度或保密程度)对每份电报的“感知到的同期重要性”(PCI)进行了评分。他们在9月份的《自然·人类行为》杂志上报告说,这个分数与后来被纳入概要的程度只有微弱的相关性:得分最高的电报被纳入的可能性仅比得分最低的电报高出四个百分点。最常见的预测错误是假阳性——电报得分很高,但后来被证明不重要。“我确实认为存在一种当下的自恋,”康纳利说。“我惊讶于体育迷们有多少次说,‘这必将载入史册。’”
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将有助于确保未来能够继续报道关于塑造我们当今世界的发现和想法的具有影响力的故事。
接下来,瓦茨说,为了接近理想的编年史家,科学家们决定“构建我们能构建的最强大、最先进的机器学习模型,并将所有东西都投入其中——所有的元数据,所有的文本。”结果,人工智能算法显著优于人类的同期判断。在衡量其挑选出后来被认为重要的电报的能力的统计指标中,其中1表示没有不正确的包含或排除,它的得分为0.14,而PCI的得分为0.05。尽管该算法的性能远非完美,但研究人员认为,这样一种“人工智能档案管理员”可能有助于缩小为后代突出显示的事件范围。当针对此目的进行调整时,他们的模型筛选掉了96%的电报,同时保留了最终被纳入概要的电报中的80%。
耶鲁大学社会学家艾米丽·埃里克森没有参与这项新研究,她说,尽管这项研究使用了不完善的数据——例如,概要的纳入取决于少数历史学家的主观判断——但该研究提供了一个实用的工具,并解决了丹托的假设。“看到对这个概念难题进行机器学习实证检验真的很令人兴奋,”她说,“而且思考起来也很有趣。”