自2006年Twitter网站上线后不久,研究人员就开始在Twitter上搜寻关于人类状况的见解。总体而言,该服务提供了一个关于人们正在做什么、思考什么和感受什么的庞大数据库。但是,科学家可用的研究工具非常不完善。例如,关键词搜索会返回大量结果,但对总体趋势的感知很差。
当科罗拉多大学博尔德分校的计算机科学家詹姆斯·H·马丁搜索关于2010年海地地震的推文时,他找到了1400万条。“你不可能雇佣研究生来阅读所有这些推文,”他说。研究人员需要一种更自动化的方法。
一种有前景的方法是开发程序,用词性(如主语、动词和宾语)标记推文中的单词,然后使用这些标签来确定每条推文的内容。这种方法称为自然语言处理,并不是一个新想法,但将其应用于短篇社交文本是新兴且不断发展的。“那现在真是一个巨大的领域,”马丁说。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的具有影响力的故事。
施乐公司旗下的帕洛阿尔托研究中心的科学家最近开发了这样一个程序。它依赖于文本处理器,称为解析器,通常在新闻文章上进行测试。解析器可以区分单词和标点符号,标记词性并分析句子的语法结构。但是,帕洛阿尔托研究人员之一凯尔·登特说,“它们在Twitter上的表现不太好。”他和他的合著者编写了数百条规则来解释标签、重复字母(如“pleaaaaaase”)以及其他可能在《华尔街日报》中不常见的语言特征。他们将于8月8日在旧金山举行的美国人工智能协会会议上展示他们的工作。
登特和他的同事还尝试使用他们的程序来区分反问句和需要回应的问题。企业可以使用这样的程序来查找人们在询问关于他们产品的问题。在最近的一次试验中,他们的程序正确分类了2,304条推文中的68%。向美国海军提供情报技术的空间和海军战备系统司令部的杰弗里·埃伦说,“对于一个全新的领域,这听起来像是一个不错的首次尝试。”
马丁说,尽管Twitter数据挖掘技术尚未准备好部署,但作为一个领域,“它正在非常快速地发展。”一旦它成熟,研究人员应该能够访问前所未有的关于人类行为的数据宝库。埃伦说,“有史以来第一次,‘茶水间谈话’被记录下来并公开可用。”“一百年前,我们根本不知道大家都在想什么。”