推文的技巧:数据工具精确定位被视为可信的词语

计算机正在社交媒体上区分真假新闻

 

根据皮尤研究中心2016年的一项民意调查,百分之六十二的美国人从社交媒体获取新闻。这个数据有助于解释假新闻的普遍存在:当信息通过社交网络传播时,常规的编辑过滤器没有机会将高质量的推文与糟粕区分开来。开发工具以帮助阻止谎言和虚假谣言的传播,将需要计算机科学家、语言学家、心理学家和社会学家的合作。一项新的研究,将于本月在计算机协会的会议上展示,分析了数百万条推文,揭示了哪些词语和短语被认为是最可信的。

佐治亚理工学院的计算机科学家兼该研究的主要作者塔努什里·米特拉说,她在2011年奥萨马·本·拉登被击毙时开始对这个问题感兴趣。当时流传着关于他是否以及如何真正死亡的消息,许多人首先在推特上听说了这起击毙事件。“这种突发新闻和猜测发生在社交媒体上,”米特拉说,“而且很多时候它发生在新闻到达传统新闻媒体之前。”她和她在佐治亚理工学院的合作者希望开发自动化系统,以纯粹基于人们谈论事件的方式来评估事件是否真的发生。这些工具可能有助于在虚假谣言传播太远之前就检测到它们。

研究人员构建了一个包含1377个事件的数据库,这些事件发生在2014年10月至2015年2月之间,以及与这些事件相关的推文。为了给每个事件分配一个“可信度”评分,参与者看到了关于该事件的推文,并根据他们的知识或其他在线研究,对该事件的“准确性”进行了评分。根据认为事件“肯定准确”的人的百分比,他们被分为四个类别——完美可信度、高可信度、中等可信度和低可信度。低可信度事件包括一名足球运动员在一次猛烈撞击后死亡以及警察向人群喷洒辣椒水。(然而,准确性评级并非完美;所涉人群确实被喷洒了辣椒水。)


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。


然后,研究人员对与这些事件相关的6600万条推文进行了统计分析,寻找可信度评分与诸如表达不确定性或情感的词语等若干特征之间的相关性。在他们尚未发表的研究中,他们列出了几个有用的线索:“可信”事件更可能在推特上用诸如appeared(似乎)、depending(取决于)和guessed(猜测)等缓和语来描述,而“不可信”事件则带有其他缓和语,例如indicates(表明)、certain level(一定程度)和dubious(可疑的)。一些最好的晴雨表是带有主观意见的词语:vibrant(充满活力的)、unique(独特的)和intricate(错综复杂的)预示着高可信度,而pry(窥探)、awfulness(糟糕透顶)和lacking(缺乏)则预示着低可信度。(奇怪的是,darn与高可信度相关联,而damn则与低可信度相关联。)尽管诸如without doubt(毫无疑问)和undeniable(不可否认的)等助推词在原始推文中预示着低可信度,但它们在转发推文中却预示着高可信度。

除了特定的词语之外,转发推文中的长引用表明可信度较低——可能是因为转发者不愿对该声明承担责任。转发次数多也与可信度低有关。(这些都是相关性;研究人员不知道,比如说,转发次数是否影响了人类的评分,或者转发和人类评分是否各自独立地遵循了假定事件的特征。)

研究人员还测试了他们的计算机模型通过结合上述指标来预测事件可信度的效果。如果算法随机猜测,则正确率将为25%;如果它总是猜测高可信度——事件最多的类别——则正确率将为32%。但它的表现明显优于此,达到了43%的准确率。如果对于差一个类别的情况给予一半的学分(例如,对于高可信度事件猜测为完美可信度),则算法的准确率为65%。研究人员希望通过将语言线索与诸如推文作者或引用的链接等因素相结合来提高其性能。米特拉已经完成初步工作,表明源自单个人的故事往往是低可信度的。

他们还将可能产生的任何工具视为仅仅是第一道防线,目的是引起记者或事实核查人员对他们应该考虑报道或揭穿的账户的注意。华盛顿大学的研究员罗伯特·梅森说,这样的工具也可能帮助急救人员在灾难期间决定信任哪些信息,他研究了推特上关于波士顿马拉松爆炸案的谣言,但没有参与目前的研究。梅森说,另一种可能性是在推特或脸书上建立警报系统,以检测人们何时即将传递潜在的虚假故事,并询问他们是否确定要这样做——“只是减缓我们传播信息的便捷性”。

即使有了人工智能,阻止假新闻的传播也将是困难的。梅森指出了一句谚语,谎言传遍半个世界时,真相才刚刚穿上靴子。通常,虚假信息比真实信息更引人入胜。记者们也急于快速报道新闻。无论如何,人们经常忽略消息来源的权威性。“在社交媒体和信息快速流动的时代,”梅森说,“什么是权威来源?我们不再有沃尔特·克朗凯特或爱德华·R·默罗来说,‘事情就是这样。’我们现在有多种声音说事情就是这样。所以我们必须做出选择。”

© . All rights reserved.