过滤的出现迫使垃圾邮件发送者改变策略。早年垃圾邮件的投机分子退出了舞台,迎来了老练的罪犯,他们开始欺骗过滤器。游戏规则已经改变。正如芬恩·布伦顿在他精彩的垃圾邮件历史著作中所述,这里摘录的第二天内容:“他们[信息]不再是商品或网站的推销,而是可以用于网络钓鱼、身份盗窃、信用卡诈骗,以及用病毒、蠕虫、广告软件和其他形式的危险和不正当的恶意软件感染接收者的计算机。一条成功的垃圾邮件信息可以净赚数千美元,而不是 5 美元或 10 美元,再加上垃圾邮件发送者可能通过将他们的优质地址卖给其他垃圾邮件发送者所赚取的收入。” 布伦顿通过详细描述极具创造性的文学垃圾邮件——劫持博尔赫斯或柯南·道尔的整篇文本来巧妙地绕过垃圾邮件过滤算法——来说明这种转变的独创性。
文学垃圾邮件仅仅是个开始,随后出现了垃圾博客、内容农场等等。进入垃圾邮件地下世界的第二天。目录会引导您浏览本章——如果您错过了,请返回阅读第一部分,这本引人入胜的书籍节选。
目录
关于支持科学新闻报道
如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保关于塑造我们当今世界的发现和想法的具有影响力的故事能够拥有未来。
过滤:科学家和黑客[节选,第一部分] 垃圾邮件书籍节选系列的第一部分
发明文学垃圾邮件 通过包含从伟大文学作品中提取的中性词语来欺骗垃圾邮件过滤器
新的冤大头 过滤和垃圾邮件攻击中仍然存在弱点。认识一下这 15 个傻瓜
“情感的新变化”:垃圾博客、内容农场和社交垃圾邮件 垃圾邮件和博客以垃圾博客的形式结合,混淆了搜索引擎页面排名系统
转载自垃圾邮件:互联网的阴影历史,作者:芬恩·布伦顿。版权所有 © 2013,麻省理工学院。经出版商 MIT Press 许可使用。
投毒:垃圾邮件的改造
发明文学垃圾邮件
车间里的机器轰鸣得如此狂野,以至于我经常在轰鸣声中忘记了我的存在;我迷失在可怕的喧嚣中,我的自我消失了,我成了一台机器。我工作,工作,不停地工作;我一直忙碌,忙碌,忙碌。为了什么?为了谁?我不知道,我不问!机器怎么会思考呢?
— 莫里斯·罗森菲尔德,《在血汗工厂》(贫民窟之歌,译者:利奥·维纳,诺伯特·维纳的父亲)
即使在过滤器安装时,第一批消息也开始像涓涓细流般涌入,就像这条消息一样:“最后看了一眼镜子里的幻影,然而,就在前一年,那里还站着一朵瓷玫瑰,去买一盒槟榔,最亲爱的,那些大型食肉恐龙会遇到它,这会很方便吗?现在感觉好点了吗?” 或者像这样:“玫瑰色的精灵先生.小木屋,治愈者部分.扇形媒体万岁.笑话,小麦滑雪者.给予猛撞沐浴.除草女主角拳击手。” 成百上千条消息,有时带有链接,大多数时候没有。就好像一台巨大的达达机器,Tzara-Bot 9000,刚刚上线。这就是文学垃圾邮件,经过统计重新组装的剪切文学文本,旨在利用贝叶斯过滤器的设计和部署中的缺陷。
贝叶斯过滤器从三个方面摧毁了电子邮件垃圾邮件作为一种信誉良好的商业模式,而每个方面都成为垃圾邮件转型的跳板。过滤扼杀了传统的垃圾邮件语言,即体面的推销类型,其文本结构继承自几代戴尔·卡耐基书籍、直邮信件、电话推销和嘉年华叫卖者(“今天有数亿人在网上冲浪。互联网在世界各地绝对是爆炸式增长。问问自己:‘我将从中获利吗?’ 给我一个机会与您分享这个令人兴奋的商机。”)。这种材料成为一种负担;它的元素太容易被过滤器执行的单词统计分析捕获。其次,过滤使通过销售赚钱变得更加困难——如果只有极少一部分邮件能够成功发送出去,您需要从成功的邮件中获得更高的回报,而不仅仅是从一瓶普通药品中获得微薄的利润,才能使垃圾邮件成为可行的业务。最后,过滤大大提高了垃圾邮件的失败率。如果过滤器捕获了 大部分 邮件,您需要发送更多邮件,并在其构造中更具创造性,才能将那微小的百分比或百分比的一部分转化为业务。人们认为,消息发送能力是一个可靠的限制,是垃圾邮件操作的固定上限:在“垃圾邮件计划常见问题解答”中,保罗·格雷厄姆 [一位过滤专家] 回答了“如果过滤器捕获了大部分垃圾邮件,垃圾邮件发送者难道不会发送更多垃圾邮件来弥补吗?”这个问题,答案是“垃圾邮件发送者已经在满负荷运转了。” 这三个发展相互促进。如果过滤器攻击语言的规律性,注意到在垃圾邮件消息中高概率出现的单词的存在,您就必须在您编写的垃圾邮件消息中更具创造性,在每次尝试中投入比以前更多的精力。您从增加的努力中获得的回报将非常少,因为只有更少的消息能够成功发送出去,而且您必须将更多利润投入到您的基础设施中,因为您需要大幅增加您可以发送的垃圾邮件数量。
它们还包含垃圾邮件转变为一种新的、不同的行业的三个要点,而文学垃圾邮件是其先兆。所有三个转型要点都取决于格雷厄姆思想的成功:新法律的实施与过滤相结合,消除了单纯逐利的投机分子,并将业务留给了罪犯。过滤器使传统的销售语言和法律免责声明成为负担,这意味着那些愿意完全欺骗的人可以转向完全不同的消息类型,以绕过过滤器并使用户采取行动。因此,来自半生不熟的朋友(或友好的陌生人)的推荐链接,突发新闻的公告,以及最非凡的,文学垃圾邮件的碎片化文本实验。如果过滤使每条消息赚钱变得更加困难,垃圾邮件消息可能会变得更有利可图:它们不再是商品或网站的推销,而是可以用于网络钓鱼、身份盗窃、信用卡诈骗,以及用病毒、蠕虫、广告软件和其他形式的危险和不正当的恶意软件感染接收者的计算机。一条成功的垃圾邮件消息可以净赚数千美元,而不是 5 美元或 10 美元,再加上垃圾邮件发送者可能通过将他们的优质地址卖给其他垃圾邮件发送者所赚取的收入。最后,如果新过滤器意味着消息失败的频率更高,垃圾邮件发送者可以开发出全新的垃圾邮件发送方法,这些方法成本更低,并且使他们能够发送更多、更多垃圾邮件——例如僵尸网络,我们稍后会讨论。
在垃圾邮件变得更加犯罪化、实验性和大规模自动化的情况下,文学垃圾邮件提供了一个引人注目的例子,说明了向一种新的计算创新型垃圾邮件生产方式的转变。在某个地方,一个装满文本文件和邮件列表的算法机器人做出了一个乔伊斯式的姿态,宣告了垃圾邮件的现代主义。
为了解释文学垃圾邮件,回顾一下误报的问题:合法的消息被错误地归类为垃圾邮件。您不能使过滤器过于严格。您需要给它一些统计上的余地,因为错过一条合法消息的代价可能远远超过识别和丢弃一条通过过滤器的垃圾邮件消息平均花费的 4.4 秒。过滤器的成功或失败取决于其误报率;丢失一条重要消息可能就太多了,格雷厄姆认为,贝叶斯过滤器在其首次出现时没有普及的原因是帕特尔和林的 1.16% 这样的误报率,而不是他的 0.03%。他的论点中隐含着其他人可以复制或至少接近他的百分比的承诺。如果一个人非常勤奋,尤其是在过滤器生命周期的早期 检查 标记为垃圾邮件 文件夹 以纠正错误分类,那么这个人确实可以重现格雷厄姆近乎完美的误报率。接收大量具有特定词汇的电子邮件,一个显着的词汇特征,作为“负面”的合法的非垃圾邮件词汇,也很有帮助。这些在格雷厄姆身上都是真实的。构建这个过滤器是他的一项严肃项目,为此他愿意阅读 大量垃圾邮件消息,做 相当多 的 编程,并成为一名公开的倡导者;因此,他的个人过滤器将得到非常仔细的维护。格雷厄姆在他的初始过滤器上有一个独特的语料库可以使用:他的个人消息,其中包含程序员和专业风险投资家特有的所有词汇——“Lisp [编程语言] ... 实际上是一种向我发送电子邮件的密码,”他在最初的“垃圾邮件计划”文件中写道。他的合法词汇数组,与标记 垃圾邮件 的单词(例如“夫人”、“保证”和“共和国”)位于轴的另一侧,包括“perl [另一种编程语言]”、“脚本”、“morris”、“quite”和“continuation”等词。
然而,其他个人用户可能具有稍微更高的误报率,因为他们具有与垃圾邮件词汇重叠程度高于格雷厄姆的词汇特征,或者因为他们的词汇与属于
组织或机构的单个更大过滤器背后的其他人的词汇聚合在一起,或者仅仅因为他们在分类时比较懒惰,或者没有意识到他们可以对垃圾邮件进行分类而不是删除它。(对于博客评论垃圾邮件消息来说,词汇特征问题甚至更糟——那种带有链接以提高谷歌搜索排名或带来一些客户的消息——因为垃圾邮件发送者或他们的自动化程序可以复制和剪切帖子本身中的单词用于垃圾邮件按摩,使评估变得更加棘手。)因此,用户并非完美,过滤器可能实施和维护不善,因此必须对边界消息稍微宽容一些。在这种不精确性中,电子邮件垃圾邮件的双管齐下策略成形
1. 理论上,您可以通过在消息中包含大量中性或可接受的单词以及更垃圾邮件的语言来影响过滤器,从而将消息的概率边缘化为合法性。无链接的胡言乱语消息是这个想法的测试探针,以无数种变体发送出去,以查看哪些被退回,哪些被通过:“我虽然 / 实际上狼吞虎咽地吃着食物,但始终是战争的号角!这种寂静像蛇毒一样射向它,/ 我会笑的。”
2. 在 垃圾邮件 消息 通过之后,接收者 面临着 一个 困境。如果接收者删除消息,而不是将其标记为垃圾邮件,过滤器会将其读取为合法,并且类似的邮件将在未来通过。如果他或她将其标记为垃圾邮件,过滤器,始终在学习,会将更多的弹珠添加到由重要单词表示的概率袋中,稍微重新权衡诸如“寂静”、“小麦”、“笑了”等无辜单词,使其倾向于垃圾邮件的概率,累积增加误报的可能性。这些来自博尔赫斯巴别图书馆的广播实际上是一种劫持单词的方式。“要么垃圾邮件继续传播,要么告别‘笑了’。”
但是为什么要使用文学作品呢?早期的消息表明,沿着这些路线的第一次实验是用从词典中随机抽取的单词构建的。这种方法效果不佳,因为我们实际上很少使用大多数单词。英语中最常用的单词“the”出现的频率是第二常用的单词的两倍,是第三常用的单词的三倍,依此类推,大部分语言都落在曲线的末端。32 从过滤器的角度来看,所有那些更远处的语言曲线上的单词——“abjure”、“chimera”、“folly”——就像第一次日落后的弹珠袋,里面有一颗黑弹珠和一颗白弹珠;在没有先前的证据的情况下,这些未使用的单词的几率是五五开,没有任何区别,而一个“sexy”仍然会将消息标记为垃圾邮件。垃圾邮件发送者需要的是自然语言,活生生的,并且在使用中处于曲线的前端。
公共领域的大部分文学作品都可以在线以纯文本文件的形式获得,这是程序员最方便的格式:成千上万的书籍、故事和诗歌。这些可以通过算法输入到程序的胃口中,切碎并重新组装,然后倾倒到垃圾邮件消息中,以将指针稍微拨到负数,非垃圾邮件类别。因此,许多文学垃圾邮件消息的节奏都非常怪异,断断续续,在迷幻状态中闪现一丝清醒,就像随意拼接在一起的不同胶片条。它们的来源包括所有规范文本和公共领域作品,这些作品可在古腾堡计划等网站上获得,以及更深奥的材料。许多科幻小说作者在黑客中很受欢迎,黑客有时会给予他们扫描书籍的光学字符识别软件,将印刷文字转换为可以在线传播的文本文件的可疑荣誉。尼尔·斯蒂芬森的加密惊悚小说Cryptonomicon就是其中一本书,可以通过多种来源获得全文文件,并且多年来以垃圾邮件消息中大量摘录的形式间歇性地出现。“这是一种奇特的文学不朽,”斯蒂芬森观察到。“电子邮件消息被保存下来,随意但有可能永远保存下来,因此理论上未来的某个人可以通过收集所有这些垃圾邮件消息并将它们拼接在一起,来重建这部小说。另一方面,电子邮件过滤器会从错误中学习。当Cryptonomicon垃圾邮件被发送出去时,它一定在世界的垃圾邮件过滤系统中产生了免疫反应,使其免受我的文学风格的影响。因此,这实际上可能导致我的作品从互联网上消失。”
文学垃圾邮件的深刻怪异之处最好通过分解它的一部分来解释,解剖这些机械化语言的花朵之一。本节开头随机从我的垃圾邮件收集地址中提取的样本是两个句子和四十五个单词,由不少于四个插入的来源组装而成:“最后看了一眼镜子里的幻影,然而,就在前一年,那里还站着一朵瓷玫瑰,去买一盒槟榔,最亲爱的,那些大型食肉恐龙会遇到它,这会很方便吗?现在感觉好点了吗?” “最后看了一眼镜子里的幻影”来自阿伯丁幻想作家乔治·麦克唐纳的童话故事《影子》。“然而,就在前一年,”和“那些大型食肉恐龙会遇到”来自阿瑟·柯南·道尔的冒险小说《失落的世界》的第 15 章和第 11 章。“那里还站着一朵瓷玫瑰,去买一盒槟榔,最亲爱的”来自东方学家昌西·斯塔克韦瑟的《马来文学》中翻译的《比达萨里史诗》第四首歌曲。而“这会很方便吗?现在感觉好点了吗?”来自辛克莱·刘易斯的《大街》第 20 章。这些片段中的每一个都以不同的方式被微妙地扭曲——标点符号被删除,字母的大小写被改变——但其他方面保持未编辑状态。这是来自自动化先锋派的完全无私的派遣,垃圾邮件发送者和他们的接收者主要意外地构建了它。“先生们,我开始学习了,”正如卡夫卡在《致学院的报告》中所说的猿人所说,另一位笨拙的说话者学习语言作为逃脱的手段:“哦,是的,当一个人必须学习时,他就会学习;如果一个人想要出路,他就会学习;一个人会无情地学习。”
除了偶尔有趣地类似于特萨拉或巴勒斯的随机模仿作品(带有路易斯·祖科夫斯基的引语诗或伯恩·波特的“发现”,这些“发现”是从 NASA 火箭文档中组装而成的)之外,文学垃圾邮件显然对人类读者不起作用。如果有什么不同的话,它支离破碎的线条和短语沙拉是一个迹象,表明有些事情可疑地错误,应该丢弃该消息。与网页的双面、机器人可读的文本一样,这些文本告诉搜索引擎蜘蛛一件事,而告诉人类访问者另一件事,文学垃圾邮件被不同的参与者以不同的方式阅读:人类,使用他们的语言,过滤器,使用他们的概率,就像我们欣赏其颜色和香味的花朵一样,以及蜜蜂定位的斑点紫外线目标。文学垃圾邮件触及了垃圾邮件奇怪专业知识的核心。它在我们的单词体验点上传递其单词,格赖斯式的含义是,所说的事情在某种程度上与所说的其他事情或手头的情况相关联,粗暴地与数字文本的可供性相交。就像图灵测试的负面版本一样,您认为您将通过电传打字机与某人聊天(正如图灵建议的那样,“请 X 告诉我他或她的头发的长度?”),但最终却得到了成排的真空管,或者更确切地说,是一个 Java 程序,其中存储了大部分英语文学作品:“当一些成员鲁昂,对开本 1667.盎格鲁诺曼古物 p. 完成他对国王的演讲。” 我们寻找意义,寻找模式和意义,无论是在库列绍夫效应中——蒙太奇的本质,同一段胶片根据其插入的内容被赋予不同的含义——还是预言信号的力量,例如一副塔罗牌,其丰富的象征意义充满了我们可以与我们自己当前关注的事情、恐惧、记忆和欲望联系起来的钩子。如果消息中存在垃圾邮件核心——可识别的推销、链接或诱饵——我们可能会挑出最突出的部分(也许点击这个会解释这个奇怪的消息!),垃圾邮件仍然会完成它的工作。
让我们简要地回到图灵,并在我们离开文学垃圾邮件和机器人可读/可写文本的世界之前,介绍一下引人入胜的模仿游戏。一种可量化的、机器介导的方法来描述人类情感的质量的想法在犯罪学、心理学、人工智能和计算机科学等多个领域的文献中反复出现。它的应用通常 提供 对 不同 人类状态的确定标准的 洞察力——例如,肯·奥尔德在关于测谎仪的精彩著作中描述的那样,或者在对“水果机”的仍然研究不足的历史中,这是一种(据称)测量瞳孔、脉搏和其他对色情图像的反应的设备,在 1950 年代开发和部署,目的是识别加拿大军队和加拿大皇家骑警队(RCMP)中的同性恋者,以便将他们从军队中清除。(它就像银翼杀手中捕获复制人的沃伊特-坎普夫机器的性规范噩梦版本。) 在这种对人类标准的研究中,最著名的陈述——当然也是产生最多后续文献的陈述——是所谓的图灵测试。图灵 1950 年的思维实验的目标(值得重复,因为它在今天被广泛误解)是“用另一个问题来取代[‘机器能思考吗?’这个问题],这个问题与之密切相关,并且用相对明确的词语表达。” 图灵认为机器是否“思考”的问题“太没有意义,不值得讨论”,并且非常出色地将问题转向了人是否思考——或者更确切地说,我们如何才能确信其他人会思考。这个项目以客厅游戏的形式出现:A 和 B,一男一女,通过某种中介(如信使或电传打字机)与“审问者”C 通信。C 只知道他们是“X”和“Y”;在与他们通信后,C 将对哪个是男性,哪个是女性做出判决。A 的任务是说服 C 相信他,A 是女性,而 B 是男性;B 的任务相同。 “我们现在问这个问题,”图灵继续说道,“‘当机器在这个游戏中扮演 A 的角色时会发生什么?’ 当游戏像这样进行时,审问者会像在男人和女人之间进行游戏时一样经常做出错误的决定吗? 这些问题取代了我们最初的问题‘机器能思考吗?’”
文学垃圾邮件非常出色地产生了一种模仿游戏的戏仿,其中一组算法不断试图说服另一组算法他们具有可接受的突出程度——对人类具有兴趣和价值。正如查尔斯·斯特罗斯所说,“我们有一个派别试图编写可以生成可以通过图灵测试的消息的软件,而另一个派别试图编写可以管理临时图灵测试的软件。” 换句话说,我们所看到的是算法编写者为算法阅读器生成文本以进行解析和阻止的产物,最终产品提供了一种引人入胜的支离破碎且非有机的语篇,甚至远远落后于先锋运动(如乌利波,“潜在文学工作室”)的组合文学。垃圾邮件的特殊经济学奖励的是数量而不是消息质量,伟大的技术创新在于生产方面,构建具有红杉般浪费的系统,红杉在其一生中可能会产生十亿颗种子,其中一颗种子可能会长成一棵成熟的树。除非必须如此,否则消息不会从其下限得到改进,因此从人类的角度来看,结果不会变得“更好”——也就是说,更具说服力或更像人类——只是更奇怪。
超现实主义自动写作有其特殊的联想节奏,而巴勒斯的剪切取决于其作者偏爱的刺耳并置的味道(来自生活杂志的一篇文章,《荒原》中的一个序列,巴勒斯的“例行程序”之一,其中来自金星的狒狒杀死了艾森豪威尔)。文学垃圾邮件文本,以及早期的评论垃圾邮件和下一节中描述的奇怪的垃圾博客,是一种完全不同的意图的表达,没有人类作家产生的内涵结构。概率操纵的搜索引擎返回的结果,或被投毒的贝叶斯喷射出的机器人生成的垃圾邮件,或糟糕的选择过滤算法给出的链接混乱,其作用方式与任何蒙太奇都不同。它们更类似于在电视上翻阅频道,空间之间存在非常清晰的语义转换——从诗歌到色情,从维基到封闭的公司页面,从信誉良好的网站到矛式网络钓鱼模型。(如果它有文化上的平行,除了
约翰·凯奇的《想象的风景第四号》——其中两位音乐家根据预先建立的分数操纵收音机的频率、振幅和音色,而无法控制正在广播的内容——那将是斯坦利·库布里克对未来投机性的艺术形式,他将其描述为“模式抽搐”:不同环境之间突然、剧烈、震动的过渡。)41 考虑一下来自“AKfour seven”的消息,他通过位于宾夕法尼亚州斯克兰顿的 ISP 上托管的巴西域名写作
今天,我谦卑地站在这里,面对[url=http://www.bawwgt.com] dofus kamas[/url]之前的任务,感谢您给予的信任,铭记我们的[url=http://www.bawwgt.com]廉价 dofus kamas[/url]所承受的牺牲。我感谢[url=http://www.bawwgt.com]dofus 力量升级[/url]总统为[url=http://www.bawwgt.com]购买 dofus kamas[/url]的服务,以及他在整个过渡过程中表现出的慷慨和合作。
这是奥巴马总统的就职演说,与一个网站的链接穿插在一起,该网站的业务是销售法国在线角色扮演游戏 Dofus 的货币(“Kamas”)和其他必需品,该游戏以各种树人、弓箭手和赌博猫为特色——以及一个庞大的灰色市场,用于销售真钱的游戏内货币。这不仅仅是将最小的与最大的拼接在一起,将主要的与次要的拼接在一起,将现在的与过去的拼接在一起。这是在纯粹任意效用的条件下使用书面文字。作为数字化、可搜索、可复制粘贴的文本,它都是一个连续的物质——几乎令人震惊地无时间性,最好比作不是图书馆或对话,而是哈里森·怀特用来描述社会结构的“聚合物粘液”,充满了复杂的条纹,可以根据需要从中挤出许多不同的形状。
最后,关于“无时间性”的想法,结束关于文学垃圾邮件的这一部分。最近,人们从数字美学和音乐的角度讨论了无时间性媒体的概念。媒体的数字化将它们移入一种持续使用的当下,就像所有录制的音乐现在都可以占据一个单一的、洗牌的内在状态,来自截然不同的创作点。1927 年在诺顿酒店用借来的班卓琴录制的远古老式音乐家 Dock Boggs 的 mp3 无缝过渡到 Oneohtrix Point Never 的合成器层,后者在 2010 年创作的音乐可以冒充 1970 年代乙烯基唱片上的电子宇宙航行。历史性成为另一种风格元素,就像音色一样。正如布莱恩·伊诺所说,现在一切都是“当前的”,这使得录音本身的美学作为一种具有自身内容的风格选择而突出,因为所有声音都共存于永久的数字正午。文学垃圾邮件,撇开其最终目的是通过或破坏过滤器以销售更多色情网站登录名或停产玩具不谈,是一种非凡的数字无时间性形式。历史和神话、诗歌、修剪观赏花园中菩提树的说明、宗教注释和在线税务指南构成了一种形状,其中给定的文学垃圾邮件消息是一个概率引导的表面。“其中引力是时空曲率的结果,时空曲率控制着惯性物体的运动。《南方公园》剧集《连体胎儿女士》和《怪胎与书呆》第一季将躲避球描述为一项潜在的暴力运动。奥古斯特·安海user·布希四世(生于 1964 年 6 月 15 日)是安海user-布希创始人阿道弗斯·布希的曾曾孙,前董事长、总裁兼首席执行官奥古斯特·布希三世的儿子。其中许多是由飓风或热带风暴沿着沿海平原产生的。”
当然,文学垃圾邮件只是众多新型后过滤器垃圾邮件中的一种。格雷厄姆预测,“未来的垃圾邮件可能看起来像这样:‘嘿。觉得你应该看看以下内容:http://www.27meg.com/foo.’” 它凭借中性语言侥幸躲过过滤器,却因可疑网址被拦截,而且我们确实看到了很多这种情况,以及各种老式垃圾邮件,它们不完美地安装和训练有素的过滤器。 (过滤器还造就了垃圾邮件发送者委婉表达的天赋。近期垃圾邮件中关于男性解剖学承诺的众多术语中的一小部分,几乎达到了诗意的暗示:“裤裆里的引擎”/“钻孔机”/“‘工作状态’工具”/“疯狂穿透者!”/“肉棒冠军!”/“你的夜间失败”/“让你的火山在狮子上爆发”/“你应得的东西”等等)。文学垃圾邮件仍然是非垃圾邮件的意外后果中的意外后果:机械读者和机械作者在正雄弘定义的恐怖谷内生成文本的循环,这仍然是值得关注和特别的事情。《尤利西斯》和电话交换机的偶然相遇,在我们眼中就像猿猴的学究式演讲,机器人讲述的故事一样奇怪。
新的受害者
格雷厄姆从未声称他或任何其他人可以完美地过滤垃圾邮件,只是过滤器会运行良好,足以使发送垃圾邮件成为一项无利可图的业务。各种形式的贝叶斯过滤实际上确实大大减少了垃圾邮件向世界各地收件箱的发送。 ISP 在个人邮箱和网络其余部分之间设置了第一层过滤器,到 2006 年底,他们发现垃圾邮件估计占过滤器远端所有邮件流量的 85%,这个数字至今保持稳定,上下浮动几个百分点。大多数人只看到这一总量中极小的一部分。巨大的浪潮不断冲击着过滤器,偶尔会有溢出。这正是格雷厄姆概述的计划。垃圾邮件的回复率一直很低:垃圾邮件发送者戴维斯·霍克报告说,在贝叶斯过滤器广泛使用之前的时期,回复率达到了可观的千分之二,而这些过滤器大大减少了发送量。因此,它在其技术条款上,而且仅在其技术条款上奏效。垃圾邮件的传播媒介就在于此。技术内嵌和促成的社会选择成为了失败点。回顾来看,这些关键点有四个:用户方面两个,垃圾邮件发送者方面两个。
过滤器部署和训练不均衡
一些 ISP、组织和用户会做得更好;一些拥有更独特的词汇;一些在管理系统训练方面更加勤奋。对于误报的成本和可接受的概率,会有不同的估计。许多用户可能永远不会意识到在整理收件箱时需要“标记为垃圾邮件”。比率会有所不同,程序会变得过时,并且会出现漏洞,无论多么小。
“15 个白痴”的问题
在《垃圾邮件计划》之后的几个月里,格雷厄姆考虑了最容易受到垃圾邮件攻击的人——使垃圾邮件有利可图的人——与最不可能安装过滤器或感到使用它们舒适的人重叠的可能性。格雷厄姆认为垃圾邮件从一百万人中最“愚蠢或最变态的 15 个人”身上赚钱,他继续说道:“最大的危险是,无论在白痴市场中部署最广泛的过滤器是什么,都需要用户付出太多的努力。 。 。 。[T]15 个白痴可能也是 15 个懒得麻烦的用户。” 他提出的解决方案(如果可以称之为解决方案)是“垃圾邮件计划常见问题解答”中的一个假设:“我怀疑,愚蠢到会回复垃圾邮件的人通常会通过像 Yahoo Mail 或 Hotmail 这样的免费服务,或者通过像 AOL 或 Earthlink 这样的大型提供商获取电子邮件。一旦消息传开,可以过滤掉大多数垃圾邮件,他们将被迫提供有效的过滤器。”
垃圾邮件生产和分发经济学的变化格雷厄姆断言,“垃圾邮件发送者已经在满负荷运转。” 事实上,随着过滤器上线,他们试图阻止的垃圾邮件的生产正在发生变化。在过滤和法律变更的双重束缚下,合法垃圾邮件发送者的终结是垃圾邮件构造向几乎完全犯罪领域转变的隆隆声之一。放弃任何合法性的伪装释放了大量的技术独创性。像僵尸网络这样的系统的发展,利用外国管辖区的 ISP(在某些情况下完全由歹徒拥有),以及垃圾邮件软件编程的日益复杂,立即提高了垃圾邮件分发的能力,同时降低了运营成本。
垃圾邮件解放为纯粹的实验——以及纯粹的欺诈
在改变其商业模式的过程中,垃圾邮件的犯罪化也改变了其工具和文字库。它不再需要以看似合法的方式销售产品的伪装。诸如网络钓鱼和身份盗窃、预付款欺诈以及病毒和恶意软件分发等策略意味着,随着分发成本的下降,利润率被推高,并且垃圾邮件开始在语言上听起来像许多东西——其中一些是前所未闻的。摆脱了任何类型的束缚,它可以寻找任何能够绕过过滤器的文本形状,像细菌消耗和利用外来 DNA 一样使用莎士比亚,使垃圾邮件变成一种与贝叶斯过滤器旨在阻止的垃圾邮件不同的、更奇怪的野兽。
这些问题是相关的。当格雷厄姆将“15 个白痴”描述为“愚蠢”或“变态”时,他以黑客的傲慢态度写道,人们会回复那些似乎需要极大的轻信或对色情有极大爱好的信息。但是,完全转向犯罪增加了潜在受害者的数量。许多永远不会回复多层次营销计划广告的人会回复声称来自他们的银行或 PayPal 帐户的通知。垃圾邮件现在可以更积极地瞄准老年人、困惑的人、使用第二语言上网的人以及一般的新用户,从而让本应受到朴素贝叶斯保护的菜鸟受到伤害。你不再需要成为一个白痴才能成为十五个白痴之一,这意味着每个新的受害者可能比旧的受害者更有价值得多。这笔钱反过来又吸引了更多老练和熟练的人才加入垃圾邮件行列,无论是在商业方面还是编程方面——能够构建更复杂的文学垃圾邮件引擎和垃圾邮件分发程序的那种人。格雷厄姆以及在他之前和之后寻找概率过滤器的人,正在构建一个出色的黑客技术,以解决一个复杂且根深蒂固的问题,这个问题在每一步都同时包含技术和社会因素。社会因素响应他们的技术干预而转变,反过来又改变了技术因素。
这仅仅是对垃圾邮件发送者制造的大量喋喋不休、粗俗的语言机器(正如卡夫卡的猿猴所说:“模仿这些人太容易了:‘我第一天就会吐口水了’”)的初步介绍。为了衡量和了解它们的人口规模,我们必须转向旨在影响搜索引擎的垃圾博客世界——旨在击败完全不同顺序的过滤器,即误导艺术的先锋。
“情感的新转折”:垃圾博客
大众投票
受惊妇女的尖叫声、哽咽的啜泣声、真正具有交流意义的眼泪、短暂的粗鲁笑声。。。嚎叫声、哽咽声、再来一次!、召回、沉默的眼泪、威胁、额外嚎叫的召回、赞许的敲击声、说出的意见、花圈、原则、信念、道德倾向、癫痫发作、分娩、侮辱、自杀、讨论的声音(为艺术而艺术,形式和思想)等等。
——维利耶·德·利尔-亚当,解释了他的自动戏剧公众的某些设置,“荣耀机器”,《残酷故事集》,1874 年
泰拉的博客标题为“泰勒·泰勒荣获 RD 乔纳斯 E”,副标题为“九个州监管机构调查拍卖债券,团体称。泰勒市交通工程部安装了城市。” 她 2008 年 7 月 16 日发布的一篇文章,标题为“泰勒州审判法律诉讼律师罗伯特·M。”,开头写道
我们的 Web 服务器找不到您请求的页面或文件。本月最佳选择:_血压。
返回上一页的按钮。天文学家即将发现地球的孪生兄弟。现在估计产品注册的成本约为百万。世纪,公众可能会要求联邦 _马萨诸塞州律师协会监督员_ 注册对臭虫有效的产品。
我母亲住在 _情感 美托洛尔_ 旁边的住房里,一年来一直在处理这个问题。
这篇文章又持续了 1300 字,而泰拉仅在 7 月 16 日就发布了三次。 6 月份,她发布了 160 篇文章,每天约 5 篇,每篇从数百到数千字不等。这也不是她唯一的博客;根据她的 Blogger 个人资料,她还有其他 11 个博客,标题如“S 的第一次尝试提升了团队,因为比科”和“只有两个 USB 富士通始终是三个”。她帖子中怪异的断断续续的节奏使得它们难以停止引用。它们的语言没有口语的传承,并且缺乏暗示开始和结束的句法边缘。与文学垃圾邮件消息一样,段落到段落之间令人震惊的移动感觉更接近于频道冲浪有线电视,而不是任何文学媒介:“奥普拉结束了三周的纯素饮食。天文学家即将发现地球的孪生兄弟。看到更多的人住在汽车里。” 然后突然过渡到日记式,带有“我”句子、观点和在线思考的节奏性从句:“我不认为这是一个数字游戏,但我认为无论你最终得到什么观点,它都不必是多数人的观点,理由有分量,而不仅仅是加起来谁同意你的观点。” 她的帖子中充满了链接,其中大多数链接到类似的博客:vollybllgrl 的博客“昨晚在阿拉巴马州东北部,一条输电线击落了一架黑鹰黑色直升机”,或者 manning6029 在博客“默认标题”上发布的帖子,其中包含奇怪的巴拉德式短语“摩洛哥金发女孩的照片是情感的新转折”。
当然,泰拉是一个机器人,vollybllgrl、manning6029、“我们民主最茫然的部分”的 Geriut、“三合会女士骑士越野队有一个凯莉赛季”的 etylycigob 以及无数其他人也是机器人。他们正在制作垃圾博客,或垃圾邮件博客——这是搜索引擎垃圾邮件为响应 Google 的 PageRank 策略及其第三代搜索引擎模仿者而采取的形式之一。垃圾博客现在占所有博客总数的一半以上。 (相比之下,第二代非博客垃圾邮件页面,塞满了关键词和链接,约占所有正在索引的网页总数的 8%。)来自垃圾博客和 垃圾 ping(垃圾邮件 ping——博客发送的链接信号,像评论一样显示在链接的博客上,理论上可以驱动流量和 PageRank)的数据模式与电子邮件垃圾邮件的模式非常吻合,具有相似的峰值——例如在假期前后——以及神秘的低谷,在此期间,月亮的某些亏缺会导致输出在几天或几周内下降。它们是如何工作的?
随着 PageRank 系统变得更加广为人知和理解,谷歌聚集了市场份额,其他搜索引擎也开始效仿其更精细的排名模型。 (当然,谷歌的排名系统比 PageRank 的基本框架要复杂得多,并且至今仍在参数和复杂性方面不断增长,但基本轮廓是搜索引擎垃圾邮件发送者正在响应的——这足以理解他们的方法。)随着 PageRank 高的网站转变为造王者,各种策略应运而生。来自它们的链接可以将页面移至不同搜索网站的前十名或前三名,从而提高关注度和收入。“声誉经济”的理论概念正在这里得到充分应用。链接交易开始作为第二代方法,同时请求正面提及和可点击的链接,第三代搜索放大了这些方法。网站发布“最佳网络”奖、“百强网站”奖等;奖项包括徽章、小图像和代码片段,以复制到获奖网站——该片段包括指向颁奖网站的链接。人类用户看到了一个小徽章图像,但搜索引擎蜘蛛看到了一个出站链接,即认可。普通网络用户中出现了新的使用习惯和礼仪:博客文章中的评论包括评论者的网站以及他们的姓名,以积累另一个链接。发布内容时不包含指向您获取内容的来源的“via”链接——“via”是额外的出站链接,作为对使用他们的发现的一种感谢——变得越来越粗鲁,成为一个粗鲁之人的标志。
这些技术只是触及了垃圾邮件实践转变的表面。 PageRank 试图通过整合社会关系、社区和人类选择的表达,一举解决相关性问题和垃圾邮件问题。从理论上讲,社会结构更难用于垃圾邮件目的,但它们在网上的机器人可读表达方式并非如此。基于第二代的奖励徽章是众多策略之一。例如,域名泛洪是创建数十个或数百个网站以重定向到目标网站。链接农场或“互相吹捧协会”应运而生:这些是巨大的链接密集型网站群,每个页面都链接到许多其他页面,它们的累积“投票”被出租出去。他们对农场的出站链接收费,就像贫困的贵族收费以将其著名的古老名称和声誉与一些不知名的暴发户成员联系起来。在第三代中,垃圾邮件开始转向创建自己的社交图谱——产生其自身社会的表象,即使不是现实。
生成不存在的社会现象的表达需要创建比以前的搜索垃圾邮件项目更多的内容,同时避免某些机器人工作的迹象。人为更改链接图的旧式尝试具有签名模式。一组网站内大量交叉链接的笨重形状,所有网站只有少数入站链接(因为垃圾邮件页面是孤独的),创建了强烈的自我认可的小岛,没有外部参与。对于正确的分析工具来说,这是一种模式,就像虚荣出版商为其新书发布的报纸广告一样明显,广告语仅来自朋友和同一情况下的其他作家。搜索引擎可以通过修改算法来纠正这些孤岛。此外,虽然完整的网页几乎可以完全自动生成,但它们仍然需要购买和维护稳定的域名和托管计划以及服务提供商,这可能会很昂贵。第三代搜索垃圾邮件需要的是一种非常快速地生成新内容的方法,这些内容在广泛的不同在线位置(如真正的社区中)中播种了链接。
1999 年,一家名为 Pyra Labs 的公司推出了一项名为 Blogger 的服务。 网络日志的概念——从最新到最旧的时间顺序条目系列——非常直观且类似日记;Blogger 的概念,以及 Flickr 到 Wikipedia 等众多相关系统的概念,是为人们提供同样直观的方式来发布他们的内容。它是远程托管的,因此您不必拥有网站域名或支付托管费用;它的许多流程都是自动化的,因此您不必设计它或在幕后进行任何编码;并且它具有有用且日益复杂的应用程序编程接口 (API)。 API 是 Web 服务可以支持来自其他程序的请求集——程序可以用来与服务交互的工具。 API 使自动化发布过程变得更加容易,并且在像 Blogger 这样的平台(该平台于 2003 年被 Google 收购)上,这种自动化发布只需很少的精力即可管理大量内容。您可以将帐户创建过程、设置选择、出站链接与内容的比率以及发布频率委托给程序。这里缺少的部分是博客的文字,但文字以 RSS 提要的形式现成可用。
RSS(首字母缩写词最初代表 RDF 站点摘要,但已更改为更具解释性的真正简单聚合)是一种与博客开发密切相关的格式;它以易于使用的形式提供站点上的新帖子或其他更改。提要阅读器可以从启用 RSS 的站点收集最新条目,材料可以转发到移动设备,并且页面可以显示来自其他站点的标题或最近的帖子。从垃圾邮件博客作者的角度来看,此功能就像一个文字水龙头。塞缪尔·贝克特曾经说过威廉·巴勒斯和布莱恩·吉辛的剪切拼贴技术“那不是写作,而是管道工程”——这是一个有先见之明的评论,现在我们有一种写作方式真的像管道工程:铺设管道、水箱、截止阀,然后打开水龙头,离开房间。垃圾博客生产系统将从其他博客和新闻来源提取 RSS 提要,根据规则对其进行切碎和重新混合,插入相关链接,并以最少的人工监督,日复一日、日复一日地发布生成的材料。泰拉已经在编写本节时发布了一篇新帖子,标题为“在它成为泰勒市之后”:“一位证人报告说,一位修女在意识到在她前面排队的人是肾上腺素乐队的主唱后疯了。鬼镇海报让我失望,格瓦伊斯。有些东西,比如重力,也一定很接近。” 诸如此类,无穷无尽。
并非所有垃圾博客听起来都一样:有些是基于“摘录”模型构建的,摘录约 350 个字符的片段,这些片段完全取自其他博客。这些片段是从在 Google 中投票特别好且关键字指标良好的帖子中选择的。他们的目标是通过情境广告赚钱,其中页面浏览量和偶尔的点击量是最好的期望。这些会与作者建立寄生关系。互联网上众多可互换的产品评论博主之一指出,被垃圾博客摘录是您选择了正确的主题和词语的标志,因为垃圾博客正在抄袭您;如果您想吸引更多垃圾博客,因为它们通过摘录为您的网站提供反向链接,“创建带有热门关键字的帖子,例如 iPhone”。摘录垃圾博客的行为很简单:它们像蚂蚁喜欢蜂蜜一样被正确的语言所吸引。
像泰拉的垃圾博客那样基于完整内容模型构建的垃圾博客玩的是更大、更微妙的游戏,它们成百上千地交叉链接以扭曲网络的形状。每个垃圾博客都分配了一组关键字和提要,从中提取相关文本。这就是为什么泰拉的博客听起来像是患有发烧、病态地痴迷于泰勒斯的人的产品。它提取了一组基于“泰勒”作为关键字的 RSS 提要和标题,以及其他一些用于变化的关键字;因此,一篇又一篇的帖子报道来自一个奇怪的宇宙,在这个宇宙中,几个名为泰勒的城市和学校、导演泰勒·佩里、经济学家泰勒·科恩(他写博客)以及提及泰勒斯的帖子和新闻文章都具有同等的重要性。有了经验,人们就开始看到其中的模式。“大银幕电影的电视剧集由妮可·阿里·帕克、凡妮莎·威廉姆斯和玛琳达·威廉姆斯主演”指的是佩里的一个项目;“社会学家马克斯·韦伯介绍了消费者之间的区别”是科恩的一个破碎片段。在泰勒强迫症中穿插的是网页设计的功能语言的刺耳出现,如“返回上一页的按钮”,在第一人称句子的段落中使用。
此时的语言与任何为人类而设的东西有多么遥远!泰拉的博客链接到其他垃圾博客,这些垃圾博客又链接到更多的垃圾博客,形成了一个庞大的站点上的孤立社区——一种 PageRank 温室,其本身并非旨在供人们阅读。看到垃圾博客帖子的人类会立即知道出了问题,并且可以标记该垃圾博客以供网络管理员删除。泰拉类型的垃圾博客根本不是为了与人类互动而创建的;它们完全是为了搜索引擎蜘蛛的利益而创建的。它们不模仿个人人类——它们不是“乔治·卡普兰”的计算等价物,“乔治·卡普兰”是不存在的秘密特工,他在《西北偏北》中的火车票和酒店房间旨在传达特定的生活。它们仅从远处工作,看起来像一群人,语言和链接在总体上发挥作用。如果垃圾博客类似于以前的任何技术人工制品,那么它们类似于二战期间建造的“QL”站点,目的是误导夜间轰炸行动:由管道、木框架、金属丝网和灯光组成的摇摇欲坠的结构,如果从足够远的地方看,看起来像一个小镇,有铁路信号、灯和敞开的门。从统计总数和算法分析来看,垃圾博客类似于繁荣社区的模式。它们的帖子被调整到蜘蛛需要接受其输入作为人类的精确复杂程度,并且它们改编人类文本供其他机器阅读和操作。对人类的影响是二阶结果。