邪恶墨迹:机器人模仿者开设博客发布来自未来的垃圾邮件

垃圾邮件发送者使用真实网络作者的名字创建虚假博客的问题日益严重


关于支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您将帮助确保未来能够继续看到关于塑造我们当今世界的发现和思想的具有影响力的报道。


我承认我曾在网上搜索过我的名字,这是一次自我搜索之旅,想看看新兴搜索引擎必应与卫冕冠军谷歌相比如何。那时我发现了我的邪恶双胞胎。

显然,一个互联网机器人窃取了我的身份,并用它建立了一个博客,以我的名义发布垃圾邮件——有时,这些条目据说是从未来寄来的。快,当您需要菲利普·K·迪克时,他在哪里?

这是我据称来自未来的帖子之一,它于 8 月下旬出现在免费网站托管商 Tripod.com 上(该网站此后已被撤下)

邪恶墨迹 2009年11月23日 作者:查尔斯·Q·崔 如果你不是学徒。很少使用正面或几乎不使用。维修店是能够进行检查的商店。

Technorati,第一个博客搜索引擎的出版副总裁大卫·怀特说,像这样的垃圾邮件博客从 2005 年底开始成为一个问题,“当时很明显它们的数量超过了真实博客的数量”。 Technorati 每小时大约收到 200 万次 ping——博客发送消息以便搜索引擎可以了解新发布的帖子——其中 90% 以上来自这些垃圾邮件博客,或“splog”。 (如此高的比率是垃圾邮件博客更新频率高于真实博客的结果。媒体服务公司 Universal McCann 估计,全球目前总共存在 1.84 亿个博客。)

瞄准博客
Splog 通常由市售软件自动创建。根据这些博客之间的某些相似之处判断,很大一部分可能由少数活跃的垃圾邮件发送者创建和维护,“可能只有几十个”,马里兰大学巴尔的摩县分校卡顿斯维尔的计算机科学家 蒂姆·费宁 解释道。

与大多数垃圾邮件一样,这些博客背后的目的是贪婪。垃圾邮件发送者经常创建这些 splog,并在其中填充广告,希望一些倒霉的用户点击它们并将收入发送给垃圾邮件发送者。垃圾邮件博客还可以通过链接到其他页面来提高它们在搜索引擎结果中的突出程度,垃圾邮件发送者可以出售这项服务。

费宁说:“将内容发布到网络上最快的方式之一是通过博客,因此垃圾邮件瞄准博客并不奇怪。“如果我在博客上发布帖子,它会在大约五分钟内被索引到谷歌的博客搜索中,然后在 10 分钟后被推送到谷歌的常规结果中。”

splog 的高昂成本
因此,垃圾邮件博客会浪费宝贵的磁盘空间和带宽,并通过降低搜索引擎的结果来损害搜索引擎。如果用户点击这些博客上的恶意链接,也可能会窃取数据或利用计算机上的漏洞。市场分析公司 Ferris Research of San Francisco 估计,今年垃圾邮件将给全球造成 1300 亿美元的生产力损失和反垃圾邮件措施费用,其中 420 亿美元来自美国。

至于为什么垃圾邮件博客通常充斥着胡言乱语,“如果页面完全从其他地方复制内容,搜索引擎会在排名方面对其进行惩罚,”怀特解释道。“因此,垃圾邮件发送者可能通过随机组合单词和术语来使垃圾邮件博客文本独一无二,从而避免这个问题。”

费宁补充说,现在,“垃圾邮件博客经常从网络上抓取文本。编写一个程序来抄袭其他博客真的很容易,这些博客经常将其内容作为 RSS 源提供。”费宁和怀特都无法解释为什么有些帖子似乎来自未来,但费宁猜测:“我认为很多垃圾邮件博客都是由不太称职的人设置的。”

所以一个机器人可能只是随机选择了我的名字作为博客?这真是松了一口气。

“实际上,我很确定这是故意的,”怀特解释说。“我们确实收到博主发现另一个博客冒充他们的报告。他们从合法网站窃取内容,以使自己的网站与搜索更相关。”

好吧,我的妄想症到此为止。

“这可能不会威胁到您的职业生涯,”费宁安慰道。“您应该更担心您的材料被他人滥用以谋取利益,并且可能与您不想关联的事物相关联。我们的研究博客被注入了代码而遭到破坏——搜索引擎看到的版本,但人类没有看到的版本,都与同性恋性产品和服务相关联。”

进行防御
具有讽刺意味的是,当涉及到打击垃圾邮件机器人时,答案可能在于更多的机器人——更具体地说,是人工智能机器人。“如今识别这些博客的主要技术是机器学习,一种人工智能技术,”费宁解释说。“诀窍在于识别这些机器人博客的指纹——它们使用的词语、它们的更新模式、它们托管的广告。”

当然,垃圾邮件发送者不断改进他们的技术,“因此您的反垃圾邮件程序可能会落后,”费宁补充道。为了确保他们的机器人保持领先地位,费宁和他的同事设计了一种策略,让多个机器人检查彼此的结果,以确保它们跟上垃圾邮件的步伐。

“垃圾邮件发送者和反垃圾邮件者之间可能永远会有一场军备竞赛,”费宁说。这场战斗可能会持续下去。“我只是把垃圾邮件看作是人性,”他指出。“总会有些人为了自私的目的而试图愚弄他人。”

的确是人性——或者,也许是非人性。

© . All rights reserved.