本文发表于《大众科学》的前博客网络,反映了作者的观点,不一定反映《大众科学》的观点
剑桥分析公司大规模抓取 Facebook 用户数据的事件现在已经广为人知,我们都对个人数据被大规模共享和交易感到“震惊”。但社交媒体的真正问题不是个人用户信息被共享所造成的损害,而是不良行为者利用欺骗、欺诈和谎言的放大效应,通过互联网在社会讨论中轻易传播,从而对社会和政治行为进行复杂而有时微妙的大规模操纵。
当我们接受谷歌、Facebook、Twitter 和其他公司的免费服务模式时,任何对隐私的伪装都早已被抛弃。上周听取马克·扎克伯格的认错陈词的参议员们真的认为 Facebook 向用户免费提供服务,仅仅是在提供一项公共服务吗? 如果不是通过向广告商出售广告和用户数据,他们认为其 110 亿美元的广告收入从何而来?
让我们明确真正的议题。身份盗窃和个人财务信息丢失造成的实际损害正在成为日益严重的问题,但它们通常不是由我们使用社交媒体平台引起的,我们在社交媒体平台上分享大量信息——但很少分享我们的信用卡或社会安全号码。
关于支持科学新闻
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将有助于确保未来能够继续讲述关于塑造我们今天世界的发现和想法的有影响力的故事。
导致扎克伯格到国会作证的剑桥分析公司争议实际上在一年前就开始酝酿。 这场争议不是关于隐私,而是关于剑桥分析公司如何将大量个人数据(主要来自 Facebook)投入其所谓的“心理画像”引擎,以影响个人层面的行为(参见当弥天大谎遭遇大数据,于 2017 年 3 月在此处发布)。
剑桥分析公司与剑桥大学的研究人员合作,开发了一个 Facebook 应用程序,该应用程序提供免费性格测试,然后开始收集所有用户的 Facebook 数据以及他们所有朋友的数据(从而利用实际用户,他们的数量不到一百万,来收集超过 8000 万人的数据)。 使用这些数据,剑桥分析公司随后根据所谓的“OCEAN”量表(开放性、尽责性、外向性、宜人性和神经质)对每个人的性格进行分类,并制作有针对性的个性化信息以吸引每个人的性格。
无需传票或调查记者就能发现这一切——其中大部分是由剑桥分析公司的首席执行官亚历山大·尼克斯在 YouTube 上广泛传播的营销演示中公开的。 剑桥分析公司(部分由人工智能的早期先驱罗伯特·默瑟拥有,他一直是 Breitbart News 和其他右翼事业的资金支持者)已经为特朗普竞选团队工作过,而尼克斯正在寻求更多业务。
剑桥分析公司丑闻揭示的真正危险是,互联网的信息和社交平台(我们越来越多地在上面花费时间,并且我们越来越多的个人和社交关系通过这些平台流动)正在被骗子、政治煽动者和小偷利用而腐败。 俄罗斯的水军工厂“互联网研究机构”雇佣虚假用户帐户发布煽动性信息、购买政治广告、传播捏造的图像,甚至组织政治集会。
虚假信息的危险不仅限于政治领域,也存在于商业领域。 互联网广告的主要购买者都知道“按点击付费”模式存在缺陷。 竞争对手可以设置机器人(甚至人为活动)来点击他们的广告,从而抬高他们的成本,并让人怀疑广告活动的价值。 Devumi 公司向名人和企业出售 Twitter 粉丝和转发,以使他们看起来比实际更受欢迎。 这些粉丝是假的,是通过抓取社交媒体网络上的姓名和照片以自动化方式拼凑起来的。
在扎克伯格决定在国会作证之前,几乎没有证据表明 Twitter 或 Facebook 对这一切感到不安。 尽管如此,仍有许多机器学习工具可以用来识别虚假帐户或活动。
本福特定律
2015 年,马里兰大学教授 珍妮弗·戈尔贝克 发现了一种巧妙的实时方法来识别虚假社交媒体帐户。 她发现,用户的 Twitter 或 Facebook 好友数量遵循一个著名的统计分布,称为本福特定律。 该定律指出,在符合条件的数据集中,数字的第一个有效数字大约有 30% 的时间是“1”——比是“9”的情况多六倍。 这种现象非常普遍,以物理学家弗兰克·本福特的名字命名,他用河流的表面积、街道地址、《读者文摘》杂志中出现的数字以及更多例子来说明了这一点。

本福特分布(波兰语:Rozklad Benforda):前导数字为 1、2 等的百分比。 来源:GKnor Wikimedia
换句话说,如果你查看(例如)一千名 Facebook 用户,并计算他们每个人有多少朋友,那么大约 300 人的朋友数量将在十几(1x)、100-199 范围(1xx)或 1,000-1,999 范围(1xxx)内。 只有 5% 的人的计数以 9 开头:9、90-99、900-999、9,000-9,999。
我们可以将每个 Facebook、Twitter 或其他社交媒体用户表示为链接用户的网络。 个人用户的链接到其他用户的图表可能如下图所示

为了测试本福特定律,请统计每个用户的朋友的“朋友的朋友”。 来源:彼得·布鲁斯
为了评估用户是否真实,我们可以查看该用户的每个朋友,并计算他们的朋友或关注者。 具体来说
1. 考虑所讨论帐户的朋友或关注者。
2. 计算其关注者/朋友(“朋友的朋友”);记录。
3. 对原始帐户的所有剩余朋友/关注者重复上述步骤。
4. 计算这些“朋友的朋友”计数的分布。
俄罗斯机器人已被揭露,但仍然在线
戈尔贝克发现,绝大多数 Facebook、Twitter 和其他社交媒体关注者和朋友的数量都符合本福特定律。 然而,在 Twitter 上,她发现一小部分 170 个帐户的关注者分布与该定律明显不同。 在她2015 年的论文中,她写道
“有些帐户是垃圾邮件,但大多数帐户是俄罗斯机器人网络的一部分,这些机器人发布文学作品或引言的随机片段,通常是从句子中间随意摘取的。 所有俄罗斯帐户的行为方式都相同:关注其他同类型的帐户,发布一张完全相同的库存照片图像,并使用不同的库存照片图像作为个人资料图片。”
戈尔贝克告诉我,她和其他人在三年前发布了 Twitter 上活跃的俄罗斯机器人列表,截至今年 1 月,这些机器人仍然活跃。 Twitter 似乎并不在意。 更重要的是,彻底清理用户记录会对 Twitter 的用户群产生财务上的不利影响; 在硅谷,商业计划的起点和终点都是庞大且不断增长的用户群。
虚假的俄罗斯(和其他)Twitter 和 Facebook 帐户及其相关活动持续存在,这重要吗? 它们会造成什么危害?
它们可以创建和传播虚假信息,这些信息可以用于剑桥分析公司风格的心理画像活动。 在亚历山大·尼克斯对这种方法的演示中,他的一个例子表明,强调对鲨鱼的恐惧的危言耸听但虚假的信息,比真实但枯燥的法律通知更能有效地阻止人们进入私人海滩。 虚假用户可以帮助生成服务于特定行为操纵目标所需的虚假内容。
它们可以通过为极端分子提供社区(即使是虚假的社区)来帮助他们; 在互联网时代之前,这些极端分子将面临更高的社会负担。
它们可以放大和提升被选中的评论员和评论员的影响力,以促进他们的目标。
它们可能会造成商业损害和扭曲,例如通过虚假评论来提升产品销量,以及破坏按点击付费广告活动。 去年在一次分析会议上,一位演讲者估计,广告商支付的点击活动中,高达 40% 是欺诈性的。
从长远来看,它们将玷污社交媒体指标,这对依赖社交媒体来推广其产品和服务的合法非传统企业和组织有害。 虚假用户将自己与合法用户联系起来以提升自己的形象,从而损害合法用户。 这篇博客文章讲述了音乐界中的这种现象。
未来
很难看出政府监管将如何发挥有益作用。 在当今的数字时代,监管就像在河床中放置岩石。 水会简单地绕过它们流动,即使是巨大的岩石也是如此。
社交媒体巨头可能会使用他们可以使用的工具(如本文讨论的工具)来大幅降低虚假帐户和操纵行为的影响。 目前,由于剑桥分析公司的特殊情况,我们引起了 Facebook 的马克·扎克伯格的关注,这种情况的故事线类似于“Breitbart 和特朗普的资助者从 Facebook 上抓取大量个人数据,并用它来操纵舆论”。 与此同时,Twitter 的创始人杰克·多尔西已经做出了一些承诺来改进身份验证,但在最近的风头中得以幸免。
最终的解决方案可能在于更聪明的公众。 人们可以被教会用更怀疑的态度来对待他们在互联网上看到的东西吗? P.T. 巴纳姆会说不,但有一个强大的公众教育例子,它有一个良好而深刻的结局:吸烟。 世界各地吸烟人数的巨大下降主要是由于公众教育和随之而来的行为改变,而不是监管,也不是烟草公司承担更大的公共责任。