本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定代表《大众科学》的观点
许多观众在4月4日收看《美国偶像》时,都预料到拉扎罗·阿博斯会被淘汰,他是一个讨人喜欢的年轻人,带着可爱的口吃,但才华平平,而且不幸地容易忘记歌词。当伯内尔·泰勒反而被淘汰时,他们震惊了。阿博斯莫名其妙地进入了剩余选手的前三名,尽管他在前一晚对皇后乐队的《We Are the Champions》的演绎嘶哑难听,令人难受。
或许这些观众应该更仔细地关注 Twitter 上的讨论。《美国偶像》从来不仅仅是奖励才华;最终决定权在于投票者,而不是评委。我称之为“尖叫因素”。阿博斯鼓舞人心的个人故事为他赢得了一群狂热的粉丝,被称为“拉扎里斯”,他们每周都在社交网络上充斥着奉献之情,互相敦促拯救他免于淘汰。据东北大学的计算物理学家 亚历山德罗·维斯皮尼亚尼 称,所有这些推文共同包含足够的信息来 预测哪些选手 可能被淘汰。
这就像社交媒体界的《疑犯追踪》。维斯皮尼亚尼是专门研究大数据分析的科学家之一:挖掘我们在网上透露的大量个人信息,以建立人口统计资料,以便更好地进行广告定向或改进列车时刻表等用途。维斯皮尼亚尼正在利用社交网络的力量来模拟疾病爆发的传播、股市行为、集体社会动态和选举结果——或《美国偶像》的投票行为。而 Twitter 是他目前最喜欢的工具。
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道: 订阅。通过购买订阅,您将有助于确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
对这些复杂系统进行建模有点像试图预测天气。考虑到可能影响结果的大量因素,准确预测十天以上的天气状况几乎是不可能的。即便如此,“您在某个时刻收集到的关于气候的数据越好,您对未来的预测就会越好,”维斯皮尼亚尼说。这同样适用于他的社交网络模型。
多年来,手机一直是研究社会现象的主要工具。凭借其 GPS 跟踪组件和通话记录,它们成为了绝佳的行为“传感器”,提供比随机调查或要求人们在日记中记录自己的行为(此类研究的传统方法)更准确的记录。
但利用手机数据进行预测模型太 2008 年了。Twitter 将数据收集提升到了一个全新的水平。“Twitter 不仅仅是你去的地方;它还是你对政治、对社会、对你认为谁会赢得《美国偶像》的想法——我们称之为社会现象,”维斯皮尼亚尼说。“我们现在可以做的是绘制社交空间。”他的实验室每天收集数亿条推文,这些推文由数百万用户发布,这为他提供了指数级更大的样本量。
从海量原始非结构化数据中筛选出那些谚语中的大海捞针并非易事。幸运的是,“物理学教会了我们很多关于如何处理大数据的知识,”维斯皮尼亚尼说。他的主要过滤器是词汇。就像大型强子对撞机的物理学家筛选数十亿次基本粒子碰撞产生的碎片,以挑选出希格斯玻色子的独特特征一样,维斯皮尼亚尼筛选数百万条推文,寻找与他试图建模的任何系统最相关的词语。这使得 Twitter 成为一种社交对撞机。
“我们所做的 90% 的事情,都像原子一样是可预测的,”维斯皮尼亚尼说,尽管他很快澄清说,他仅仅是在统计意义上说的。“当你进行天气预报时,你不是在预测一个水分子或一个氧原子的运动,”他说。“这是我们可以预测的:社会集体现象,而不是单个个体的行为。” 最终,他的目标是模拟舆论共识是如何形成的,以及想法和病毒如何在人群中传播(无论是在线上还是线下)。
去年,在第十一季《美国偶像》期间,维斯皮尼亚尼和他的学生 分析了 在决赛前九集节目的投票期间的 Twitter 活动,发现每个投票期间提及特定选手的推文数量很好地指示了该选手收到的票数。这使得预测每周最有可能被淘汰的选手成为可能。那一季的两位决赛选手是 杰西卡·桑切斯和菲利普·菲利普斯。
维斯皮尼亚尼的团队甚至按地理区域进一步细分了 Twitter 活动——这个子集被证明对预测产生了至关重要的影响。最初的分析倾向于桑切斯成为比赛的最终获胜者。
但该子集显示,桑切斯在美国境外有很多粉丝,尤其是在菲律宾,而这些粉丝没有投票资格。当该小组调整分析以排除美国境外的推文时,模型显示菲利普斯领先。而 菲利普斯确实赢得了冠军,桑切斯获得亚军。
《美国偶像》作为一个方便的测试案例,因为它是一个相对简单的模型。“我们使用《美国偶像》是因为我们认为,如果我们在那里无法做出预测,我们就无法在其他任何地方做出预测,”维斯皮尼亚尼说。
诚然,即使 Twitter 作为一种预测工具也有其局限性,因为它仅代表了潜在选民的一小部分。对于每一个狂热的“拉扎里斯”投出多票的人来说,还有数百万被动的观众(比如我)从不费心投票。再说,我们不太可能在 Twitter 上表达我们对《偶像》的看法。维斯皮尼亚尼认为,尽管这个样本集相对较小,但那些在 Twitter 上谈论比赛的人这样做是因为他们是该节目的粉丝,因此最有可能为他们最喜欢的选手投票。这使得识别可能的选民并根据他们的偏好对他们进行分类变得容易得多。
对政治选举做同样的事情要复杂得多。例如:最近在二月下旬举行的意大利选举。“这是一个完全疯了的国家,”维斯皮尼亚尼谈到他的祖国时说。“这是少数几个人们不讲真话表达自己意见的国家之一。” 这使得根据用户的政治偏好来识别和分类用户变得更加困难,更不用说地理等方面不可避免地会产生的通常偏差。
从技术上讲,维斯皮尼亚尼的团队关注的是原始信号,而不是做出明确的预测。尽管如此,除了名誉扫地的政治家西尔维奥·贝卢斯科尼出人意料地赢得了 30% 的选票(官方民意调查均未预测到这一结果)之外,该小组的模型与选举结果非常吻合——实际上比标准选举民意调查更好,而且成本更低。
当然,“尖叫因素”在《美国偶像》(或其他地方)只能带你走这么远。阿博斯的 好运在下周就用完了,当他拙劣地翻唱了卡彭特的《靠近你》后被送回家,他甚至无法完成一个简单的转调。这太糟糕了,以至于 和蔼可亲的兰迪·杰克逊也承认,在直播电视上:“你知道我爱你这个人……但我只能说,‘不,不,不,不。’ 那太可怕了。”
上周,坎迪斯·格洛弗 和 克丽·哈里森——她们两人在本季的表演一直都很稳定——成为了前两名决赛选手。但维斯皮尼亚尼的团队不会分析 Twitter 来预测他们中的哪一位将赢得本季的比赛。去年的练习达到了其学术目的,发表了一篇论文,并在 3 月在巴尔的摩举行的美国物理学会会议上进行了演讲。此外,“今年的节目没有那么有趣,”他说。
就我个人而言,我支持坎迪斯。但我并没有抱太大希望,原因可以用两个词来概括:梅琳达·杜利特尔。她是 2007 年第六季《美国偶像》的选手——也是我唯一一次观看该节目。我碰巧在换频道时看到了她的 《纳特布什城市界限》的表演 —— 并被震撼了。 以尖刻著称的西蒙·考威尔 也是如此,他开始称她为“我的梅琳达”。
Twitter 当时才刚满一岁,但即使没有这个指标,我也确信杜利特尔肯定会进入决赛。一周又一周,她都表现出色,无论是被要求表演摇滚(“祝你愉快”)、戴安娜·罗斯(“家”)、励志歌曲(“总有一天”)、摩城音乐(“自从你离开后”、“我是一个女人”)还是乡村音乐(“麻烦就是女人”)。仅凭纯粹的才华,她就应该获胜。
但杜利特尔没有“尖叫因素”——至少不如 17 岁的乔丁·斯帕克斯那么多,后者赢得了冠军,还有冉冉升起的新星布雷克·刘易斯,他是那一季的亚军。这就是大众的智慧。我非常厌恶,以至于我再也没有关注过《美国偶像》——直到最近几周,维斯皮尼亚尼的工作给了我一个再次收看的理由。但我仍然对 2007 年的事情耿耿于怀。当然,斯帕克斯很可爱也很有才华,但拜托!她根本不是一个级别的!看看杜利特尔对《My Funny Valentine》的精彩演绎,这绝对是比赛历史上最精彩的表演之一
唉。是的。仍然耿耿于怀。这次选民做得更好了。
参考文献:
Ciulla, Fabio 等人。(2012) "Beating the News Using Social Media: The Case Study of American Idol," EPJ Data Science 1:8.
Fumanelli, M. 等人。(2012) "Inferring the Structure of Social Contacts from Demographic Data in the Analysis of Infectious Diseases Spread," PLoS Computational Biology 8: e1002673.
Goncalves, B., Perra, N., 和 Vespignani, A. (2011) "Modeling Users' Activity on Twitter Networks: Validation of Dunbar's Number," PLoS ONE 6(8): e22656.
Ratkiewicz, J. 等人。(2010) "Characterizing and Modeling the Dynamics of Online Popularity," Physical Review Letters 105: 158701.