垃圾郵件:互聯網的陰影歷史 [節選,第三部分]

對於各種形式的電子入侵,無論是通過廉價的人力勞動還是自動化的殭屍網絡,多孔的屏障都形同虛設。在關於引人入勝的垃圾郵件歷史的章節的第三個節選中,了解這個奇異現象的嘉年華

如果互聯網在核彈爆炸中倖存下來,那麼一旦衝擊波消退後伺服器恢復供電,用於檢查親友生存狀況的消息很可能會與垃圾郵件交織在一起。垃圾內容的無限多樣性和持久性使其相當於以指數級速度繁殖的電子微生物群。看看內容農場的大規模生產——兜售關於如何穿著毛衣背心的技巧以及除臭劑容器的評測——大量愚蠢無關的人工撰寫的文字傾瀉而下,模糊了垃圾郵件和實際內容之間模糊不清的界線。內容農場 19 世紀撒旦磨坊般的品質與擺脫了人為因素的無知機器形成鮮明對比。可以說,殭屍網絡是終極垃圾郵件——機器奪取它們想要的東西(一台被入侵的電腦不到五美分),而不是詢問你是否想購買不需要的商品。在我們芬恩·布倫頓非凡的垃圾郵件巨著的章節的第三部分中,跟隨這一切。

目錄


關於支持科學新聞報導

如果您喜歡這篇文章,請考慮通過以下方式支持我們屢獲殊榮的新聞報導 訂閱。通過購買訂閱,您正在幫助確保關於塑造我們當今世界的發現和想法的具有影響力的故事的未來。


轉載自 《垃圾郵件:互聯網的陰影歷史》 作者芬恩·布倫頓。版權所有 © 2013,麻省理工學院。經出版商麻省理工出版社許可使用。

“情感的新轉折”:內容農場和社交垃圾郵件

量化受眾

谷歌作為我們這個時代的代表性公司,就像福特是 1910 年代的代表一樣,它的業務不是搜索,而是廣告——其廣告服務提供了其收入的 97%。  這些廣告採用小段文字或圖像的形式,通常是針對特定的搜索關鍵字顯示的。如果網站所有者將其中一些廣告放在他或她的網頁上,他們可以獲得一定數量的收入,通常非常少,按展示次數(即,每次在瀏覽器中加載帶有廣告的頁面時)或按點擊次數(查看者實際點擊廣告以訪問廣告商的頁面)計算。谷歌也從這筆收入中分一杯羹,所有在博客和網頁上投放的廣告、搜索結果中的贊助鏈接以及伴隨谷歌 Gmail 服務中對話的廣告都累積成公司的收入,這幾乎支付了所有其他費用。(這個基金也來自大量的免費內容,其託管費用是從個人分享的這筆錢中支付的,以換取在其網站上投放廣告。)因此,如果廣告是業務,而內容僅僅是誘餌——也就是說,引擎上的裝飾品——為什麼不優化廣告呢?

因此,splog 和垃圾郵件網站包含一個又一個的帖子和一頁又一頁的文本,這些文本是自動收集和生成的,以最好地適應谷歌的搜索引擎算法,並在最後一個像素中填充廣告,以便最大限度地利用每個頁面瀏覽量和點擊率作為收入來源。垃圾郵件頁面上的廣告可能完全通過谷歌的聯盟廣告計劃投放——換句話說,它們可能是谷歌的重要收入來源。這意味著  搜索引擎  垃圾郵件發送者運行著龐大的垃圾郵件博客和網站,這並非異常現象。他們正在最大限度地利用可用的技術和經濟,構建一個系統,在這個系統中,所有與人和對話無關的事物都被修剪掉,轉而支持內容生產、搜索結果、點擊和廣告投放的自動化。(該領域眾多企業之一的“企業”套餐將為訂閱者批量生產多達 1,000 個博客,每天圍繞訂閱者選擇的 150 個關鍵字產出 10,000 篇文章——每天的文本量在數量上超過了整個有文字文化的文明和歷史時代。)這個系統反過來使谷歌處於矛盾的境地,不得不分析和驅逐其許多最忠實的客戶:那些故意過度利用,並意外地過度暴露,支撐著當代網絡的金融和注意力經濟以及技術的人。

被稱為“內容農場”的人工撰寫文本的大規模生產系統加劇了這種矛盾的角色。Demand Media 是一個典型的案例,它根據一種算法委託人工撰稿人(他們願意以非常低的標準、高速和極少的錢來滿足要求)撰寫內容,該算法決定任何給定文章在其生命週期內的廣告收入。然後,它通過 eHow.com 和 Livestrong.com 等數十個域名發布這些內容。Demand Media 在高峰期每天生成數千篇文章,可以創建一種知識的模擬,這種模擬足以吸引搜索引擎的回報和真人的點擊(儘管產生了一種無用性的無意義詩歌,這是垃圾郵件的機器混亂的後人類語義的相關物,文章如“如何穿著毛衣背心”和除臭劑容器的冗長評論)。正如 C. W. Anderson 所觀察到的,內容農場正在從事吸引和操縱“量化受眾”的工作,這種策略標誌著更負盛名的合法媒體製作與垃圾郵件本身之間模糊的邊界空間。  畢竟,這些是非常精確定位的文章,由人為人寫作;它們在什麼時候從報紙會刊登的僅僅是輕浮或引人注目的文章的空間跨越到網絡不良行為的領域?算法量化何時與精明的編輯分道揚鑣,後者知道性、連環殺手和操作指南故事能賣錢?

在整個歷史中,垃圾郵件都產生了定義上的問題。雖然很容易識別一個典型的例子——例如,早些時候描述的那些可笑的糟糕的過濾器擊敗項目,其中將西力士鏈接插入到由《聯邦黨人文集》製成的詞彙紙漿中——但邊緣案例才是問題所在。無論我們談論的是 Usenet 上的言論自由、通過電子郵件進行的合法營銷和商業活動的政策問題,還是觸發過濾器並消失的理想但類似垃圾郵件的消息,總會存在摩擦,不是圍繞最惡劣的案例(沒有人為 Leo Kuvayev 的“\/1@gR/-\”消息辯護),而是在垃圾郵件威脅要融入可接受用途的模糊地帶,並且打擊一種可能對另一種產生有害影響。 “社交垃圾郵件”和量化受眾的領域是最模糊的領域之一——在這些領域,獲得關注和受眾管理的相當可接受和既定的方法可能開始轉變為垃圾郵件。

“該算法的輸入來自三個來源:搜索詞(來自 100 多個來源(每天包含 20 億次搜索)的熱門詞)、廣告市場(哪些關鍵字受到追捧以及它們的價格快照)以及競爭(在線已有的內容以及術語在搜索結果中的排名)。” 這句話可能是在描述一個運營極其良好的 splog 帝國,但這是記者丹尼爾·羅斯對  Demand  Media  運營的描述。  該算法  輸出什麼是盈利的,職位被發布到一個單獨的網站以尋找勞動力,然後一個人撰寫條目。“它是一個人類需求的數據庫,”羅斯補充道,但這並不完全正確。它是一個不斷更新的查詢集合,這些查詢的結果可以長期穩定地賺錢;“需求”有點太宏大了。安德森剖析了這種“算法新聞報導”所做的規範性承諾——因為它確實做出了承諾並反映了信念,我們不應過於迅速地否定這些信念,儘管這些信念可能顯得膚淺和自私自利。它們是不同的選區劃分領土並在技術戲劇中提出論據的地方。

安德森確定了五項承諾,在這些承諾中,我們可以找到內容農場和其他類型的算法新聞報導所參與的垃圾郵件血統的顯著回聲。  它是圍繞“大數據”構建的,因此它具有我們之前看到的模糊性,即人類和機器輸入和判斷之間的模糊性。它以“消費者選擇”的思想為基本原則——畢竟,它是“需求”媒體,它可以聲稱以非常高的數學精度給予那些輸入查詢的人們正是他們想要的,因此沒有任何家長式地過濾或“策劃”信息以造福他們的藉口。最後,它是面向未來的,因為它是預測性的——它不是報導即時過去的新聞,而是可以關注趨勢,並根據趨勢製作內容以達到頂峰,就像維納控制論的槍射擊到飛機到達的位置一樣。看看內容農場項目中體現的這五種信念,我們可以再次看到相關性的捕獲,其形式比以前更加精細。與其發送一百萬封電子郵件來期待少數回覆,不如製作一百萬篇文章,這些文章將被搜索引擎認為足夠相關,以便在少數搜索中獲得最高排名,並被人們點擊並貢獻廣告收入。

對於這個項目的略微不同的方法,我們可以轉向美國在線,那裡歷史的諷刺意味變得幾乎濃郁。該公司的圍牆花園方法為美國聯網計算帶來了大量新用戶。並非巧合的是,它也帶來了大量不熟悉的新用戶,這些用戶不斷打破“網絡禮儀”的規則,並為早期的垃圾郵件發送者提供了有利可圖的誘餌。它現在正在將自己重塑為一個瘋狂的 SEO 遊戲內容帝國。一份關於“美國在線方式”的洩露的內部備忘錄揭示了一個引人入勝的項目,即使用一個緊密協調的人工團隊來生成大量文本,以便在這些文本上投放廣告。文章的數量將從每月 33,000 篇躍升至 55,000 篇——每位員工每天生產 5 到 10 篇文章——圍繞一個基於“流量潛力”、“收入/利潤”、“周轉時間”和“編輯誠信”的指標系統構建,其中包含逐點問題,例如“此內容將賺取多少 CPM?”(“CPM”是指廣告加載一千次(一千 = M,如羅馬數字)的成本——即美國在線預期的收入。)“這個故事是否是熱門關鍵字的 SEO 冠軍?” 出現在檢查清單中:這裡可以使用多少個至關重要的熱門關鍵字來獲得最多的搜索次數?從這個角度來看,美國在線收購了大型內容生產和聚合網站《赫芬頓郵報》符合安德森描述的算法新聞報導模式。美國在線並不是在購買一個受歡迎且可能存在問題的文化資產,就像索尼購買電影製片廠或康泰納仕在《紐約客》上虧錢一樣。他們購買的是一家工廠——一個擁有經過驗證的往績和管理良好(如果艱苦)的時間表的裝配線系統,可以生產或聚合適合熱門話題的材料,並可靠地生成頁面瀏覽量,其中包括最新的十大列表和真人秀明星的困境。

這是垃圾郵件嗎?不完全是,儘管經常使用這個術語——但“垃圾郵件”從來都不是精確的。在所生產材料的一次性和機會主義性質,以及用於生產它的人工和自動化基礎設施的混合中,存在一些相似之處——一個旨在壟斷對話和徵用相關信息空間的犬儒主義項目。鏈接誘餌是一個相關術語,它起源於 SEO 社區,用於描述生產相關的、高度“可鏈接”的內容的策略,希望從“精通鏈接的博客作者和網絡內容創作者”以及追隨他們的“數百名像綿羊一樣的內容創作者”那裡吸引流量,從而獲得廣告收入(引用該術語在 2005 年秋季最早出現的說法之一)。  “鏈接誘餌”最初是一個積極的詞組,用於描述建立在長期以來在雜誌行業流行的輕量級基於趨勢的內容之上的剝削性策略,但很快就被採用為一個負面描述詞,涵蓋相同的內容。從尋找有深度內容的讀者的角度來看,它是描述大量與鏈接內容藻類大量繁殖的完美術語,這些內容具有引人注目的標題、關於熱門話題的十大列表、誇張的說法以及不必要的反對立場,所有這些內容每篇文章僅提供幾百字。該術語現在已從其 SEO 根源擴展到描述其他文化現象,這些現象被認為犧牲了論點和證據,以換取吸引注意。

考慮一下這種想法的另一個版本,應用於個人自我推銷:人格垃圾郵件,這是作家梅林·曼恩創造的一個略帶苦澀的玩笑,關於使用微博服務 Twitter。人格垃圾郵件是指為自己爭奪關注,使用社交媒體來建立受眾——通常是一個經過仔細量化的“關注者”和“轉發者”受眾——而不是像最初承諾的那樣建立朋友圈。這是一個對社會可接受但積極渴望眼球的人的機智譴責,這些人想要成為或表現得像名人、“影響者”或“思想領袖”。在 Facebook 上取消好友資格的首要原因是“頻繁、不重要的帖子”,許多基於計算機的 Twitter 客戶端都有“靜音”功能,因此您可以忽略某些用戶的消息,而不必取消關注他們,然後稍後再重新關注他們(這會讓他們知道您曾經暫時關閉了他們)——人格垃圾郵件是指每日生活中的一個特徵。正如安德森通過算法新聞報導所暗示的那樣,這些做法

反映了一些真正新穎的東西,並且尚未明確地進行理論化,與哈貝馬斯的公共對話作為審議以及阿多諾和霍克海默的文化產業的平淡無奇的管理產品(後者由多層次的人才塑造,以實現最廣泛的傳播)截然不同。正在進行一場重新調整,其中正在權衡可接受的社會表達和自我推銷模式的問題。借鑒愛麗絲·馬威克的研究,我們可以發現一些由個人塑造的這些新模式,他們將自己變成了主要廣告和營銷公司的後繼者:品牌就是你,目標是為某些術語或想法積累相關性,以便你在某種模糊的意義上變得“有影響力”。(據推測,從這種狀態將會產生書籍合同、演講費和電視節目合同。)因此,方法是將每個平台、聚會和互動都視為營銷機會,以配置自己和自己的活動,以適應搜索算法。

用您自己的話來說:垃圾郵件發送和人機協作

算法在垃圾郵件發送項目中的逐步主導地位出現在過濾器和響應過濾器創建的垃圾郵件中,出現在搜索引擎及其操縱者中,並且正如將要展示的那樣,出現在殭屍網絡的宏偉全球項目中。然而,在那些算法倡議和人工勞動交匯的地方,它最令人毛骨悚然地被看到。內容農場是這種結合的一個很好的例子,但還有其他更親密的例子,在這些例子中,人工和機器生產相互結合,以擊敗反垃圾郵件系統的自動化安全。例如,Mechanical Turk 是一個真正奇怪且現代的事物:一個眾包可在計算機上由人完成的小單位工作的市場。在“人工人工智慧”的標題下,它是一個“請求者”(在 Mechanical Turk 術語中)可以將任務分解為稱為人類智能任務 (HIT) 的片段,提供每個任務的價格,然後看看是否有任何“提供者”雲——尋找少量微支付勞動力的工人,類似於等待 Demand Media 新工作的“內容生產者”——會接受它們。亞馬遜的系統協調工人、任務片段和付款。(如果您有一個 45 分鐘的 mp3 文件採訪,您可以將音頻分成兩到三分鐘的片段,將它們上傳到 Mechanical Turk,為每個轉錄片段提供一美元,去吃午飯,然後回來發現大部分工作都已完成。)據估計,該服務在 100 個國家/地區擁有 10 萬名工人,其中大多數在印度和美國。它被用於轉錄工作,如我們的示例所示,以及數據庫項目、調查、圖像標籤和更深奧的活動。它具有一系列用於重寫各種長度的文本的 HIT,其中許多似乎適用於向付費學生提供抄襲或“預先寫好的”論文和論文的服務——重寫文本(“用您自己的話”)使教師更難通過 Google 搜索識別它們。

與殭屍網絡等簡單且大規模自動化的流程相比,僅僅創建 HIT 來發送垃圾郵件電子郵件將是毫無意義的困難和昂貴。但是 Mechanical Turk 系統非常適合從事社交網絡垃圾郵件。(“社交網絡”:當然,所有網絡都已經是社交網絡,無論它們是否願意成為社交網絡。)許多網站現在都帶有內置的用戶操作和選擇模型,從投票到公共書籤到協作過濾,為群組分配顯著性和價值提供了不同的方式。除了來自這些網站之一的直接流量的好處外,當用戶看到有趣的鏈接並點擊它時,在主要的社交網站上獲得鏈接是提高一個人的 PageRank 並獲得更好的搜索結果的好方法。搜索引擎垃圾郵件發送者數十年來在搜索排名中攀升的追求因此已遷移到社交推薦系統的新領域。“您能否為我的網站添加書籤 / 使用以下網站之一:  http://www.del.icio.us/ http://www.stumbleupon.com/ http://www.furl.com,” 一位 Mechanical Turk 請求者說,為每個書籤提供 1.75 美元的費率。突然之間,在社交網站和搜索引擎的算法眼中,聲譽良好且高價值的真人社交網站用戶對這個關於抵押貸款重組或名人性愛錄影帶的廣告網站產生了濃厚的興趣。

與此同時,Craigslist 為那些想要發送社交網絡垃圾郵件的人提供了非常不同的挑戰和回報——這種挑戰導致了一場奇怪的人機軍備競賽。Craigslist 是一個免費網站,用於發布分類廣告,從出售自行車到出租公寓(以及大量徵友和“錯過的聯繫”,城市孤獨和渴望的大規模索引)。它在美國(截至撰寫本文時)頁面瀏覽量排名第九的網站上為廣告提供免費空間,與谷歌及其屬性維基百科和 Facebook 並列。因此,Craigslist 顯然需要保護自己免受垃圾郵件發送者的侵害。垃圾郵件的特徵之一是文本的重複——這是貝葉斯過濾器抓住的一個弱點——因此 Craigslist 阻止了具有相同文本或來自相同網絡地址的多個廣告帖子。他們要求提供有效的電子郵件地址才能發布,並向該地址發送電子郵件確認請求,必須點擊該請求廣告才能發布。他們使用 CAPTCHA 系統——理論上只有人類才能讀取的奇怪背景上的變形字母,以驗證他們的非機器人身份——以阻止自動發布工具。最後,他們允許其他用戶將廣告標記為垃圾郵件,以便網站版主可以刪除它。作為回報,垃圾郵件發送者開發了諸如 CL Auto Posting Tool 和 Craigslist Bot Pro 1 之類的工具(垃圾郵件業務的平庸:67 美元,僅限 Windows,“允許您自動化您的個人和商業在線廣告”),以繞過 Craigslist 的每一項防禦措施。文本多態性——垃圾郵件消息語言的個別差異——可以擊敗重複消息檢測器,就像在電子郵件中一樣。代理可以用於從許多不同的網絡地址發布廣告,帶有由 Jiffy Gmail Creator 等程序像車牌一樣衝壓出來的有效電子郵件地址。Captcha King 可以填寫 CAPTCHA。開發了監視器來檢測廣告何時被標記為垃圾郵件,以便可以自動重新提交。

然後 Craigslist 轉向電話驗證。要在某些類別中發布廣告,您必須接聽自動電話或短信,其中包含您的確認密碼,然後廣告才能發布,每個電話號碼只能發布一個廣告。垃圾郵件發送者嘗試使用諸如 Skype 之類的互聯網語音 (VoIP) 服務,在某些情況下,這使得生成新的電話號碼成為可能。Craigslist 阻止了這些。“我的假設可能是準確的,即 CL 正在查看國家數據庫,該數據庫區分哪些號碼是 voip,哪些不是 [原文如此],”一位垃圾郵件發送者在專門討論如何克服這些新進展的廣泛技術討論中寫道。垃圾郵件發送者轉向可以讓他們以少量費用註冊額外電話號碼的服務。Craigslist 也阻止了這些。

垃圾郵件發送者轉向其他平台:“你們為什麼不帶一台筆記本電腦去:卡車停靠站、機場、汽車站,你們應該在那裡找到將近 100 部公用電話”——並使用這些電話及其號碼進行驗證消息。另一位垃圾郵件發送者回复說:“我曾經

有 140 個帳戶都是我在公用電話上完成的。我花了大约 3 天时间。这并不容易,而且很无聊。” 随着这些努力达到高潮,随之而来的是一个更巧妙、几乎类似于 Mechanical Turk 的劳动分工项目:“有些人正在创建手机铃声页面[用于手机],如果有人想要铃声,您只需在她的手机中接收一条短信(craigslist),并将此代码放在网站上,即可自动下载您的铃声。” 换句话说,在移动电话上寻找免费铃声的人将充当分布式电话验证系统,以补偿 Craigslist 的反垃圾邮件措施:一个随机的志愿人群,由机器远程组织,帮助广告商淹没社区平台,而他们从不意识到自己正在这样做。

CAPTCHA,Craigslist 等众多网站和平台使用的介于人类和机器人可读之间的边界,长期以来一直困扰着垃圾邮件的生产,使得启动新的 Blogger 博客或开设更多免费电子邮件帐户变得更加困难,垃圾邮件发送者一直在不同方面努力克服它们。2008 年 5 月,一个真正奇怪的突破发生了。安全公司 Websense 记录了一系列针对电子邮件服务帐户创建过程的攻击。许多帐户请求不断达到 CAPTCHA 阶段,大多数请求失败,但并非全部失败。有俄语证据表明有人出价少量资金来解决 CAPTCHA,但速度(六秒内回复)和失败率(九比一)表明计算机正在进行求解。(“我们仍然相信有人工参与,”该公司声明。)  后来,Websense  还  记录了一个  显着改进的 CAPTCHA 破解器,垃圾邮件发送者的计算机可以将他们的 CAPTCHA 问题传递给该破解器,因为他们创建了新的电子邮件帐户。该程序可以获取扭曲文本的图像并返回结果。在 20 到 25 秒内,错误率显着提高,达到五到八次尝试成功一次或介于 12% 到 20% 之间——一点也不差。拥有所有备用计算能力的殭屍網絡非常适合对分析 CAPTCHA 所需的计算量大的处理进行暴力攻击。

与此同时,诸如 Captcha King 之类的服务(在前面提到的 Craigslist-垃圾邮件发送者军备竞赛中提到过)正在采取相反的策略,这些服务宣传一系列以贵族为主题的支付计划(皇家、帝国和皇帝),用于批量销售数千个 CAPTCHA 解决方案。他们的方法与自动 Craigslist 发布引擎、Jiffy Gmail Creator 和 MySpace 机器人等垃圾邮件发送软件集成,检索 CAPTCHA 图像以进行“手动输入”。外包人员整天坐在那里敲击 CAPTCHA,保证“成功率为 95%,响应时间不到 90 秒”。与他们相比,那些可怜的人,他们的工作使常规数据输入显得非常愉快,本质上是受雇成为人类,也就是说,表现出一种理论上完全是人类的特征。(另一项类似的服务 KolotiBablo 通过其支付率告诉我们,“赤裸裸的人性”本身并不值多少钱:每解决一千个 CAPTCHA 支付 0.35 美元至 1.00 美元——这意味着每天连续工作八小时,每分钟输入六次 CAPTCHA 文本,每天的收入略低于 3 美元。)在他们的工作中,以及在声明“我们仍然相信有人工参与”中,我们可以听到艾伦·图灵的打字机在客厅里玩模仿游戏的咔哒声。CAPTCHA 是由深感厌倦的人的分布式劳动力解决,还是由在受感染机器网络上运行的日益复杂的光学字符识别程序解决?一些细节可以帮助区分它们,但两者可以混合在一起且难以识别的事实——谁在电话线的另一端?——引发了图灵思想实验的本质问题。正如凯文·凯利所说,“如果垃圾邮件发送者在谷歌之前提出人工智能会怎样?”

作为回应,用于区分计算机和人类的技术也在不断发展,变得更加精密——又一场军备竞赛。目前的工作集中于呈现由动画斑点组成的移动图像(例如奔腾的骏马),背景也是斑点状的。这是人类可以识别,但计算机至少到目前为止会发现极其困难的事情。在一个充满创造力的本土化反机器人程序解决方案的世界里,个人网站上提供了各种各样的选择:一个以“oryx”结尾的电子邮件地址,并附注在发送前删除“羚羊属名”;一个非常简单的笑话,你必须从中选择显而易见的正确笑点;一张照片,你必须简要描述(“我在房子里还是在海滩上?”)才能发送消息——这些任务对于人类来说是微不足道的,但对于目前被发送来收集地址和发布评论垃圾信息的粗糙程序来说,则需要不可能的推理。有趣的是,早些时候描述的验证码破解血汗工厂之一,一家名为 Antigate 的俄罗斯服务,通过要求访问者使用西里尔字母输入现任俄罗斯总理的名字来阻止西方人,这是一种“文化限制型验证码”,目的不仅是抵御机器人程序,还要区分人类群体。什么才是独特且可靠的人类特质(并且可以在不同类型的界面上进行大规模自动测试)的领域,是未来技术专家探索的有趣领域之一——哪怕只是为了阻止僵尸网络。

僵尸网络

“到现在我也不知道蠕虫里到底有什么,”主人公宣布。“随着它蔓延到我从未敢想的地方,更多的比特正在被自动添加进来。”他继续说道,“而且——不,它无法被杀死。只要网络存在,它就能无限期地自我延续。即使它的一部分失效,缺失部分的副本也会存储在其他某个站点,蠕虫会自动细分并发送一个重复的头部来收集备用组并将它们恢复到正确的位置。”这段文字引自约翰·布鲁纳 1975 年的科幻小说《冲击波骑士》,在约翰·肖奇和乔恩·哈普 1982 年的杰出论文《“蠕虫”程序——分布式计算的早期经验》的开头被引用。正是通过他们,以及他们在施乐帕克研究中心的工作,蠕虫从布鲁纳小说中的概念和词源学意义上,演变到新千年中电子邮件垃圾邮件的变异。

肖奇和哈普设想了一种非常有创意的东西,尤其是在当时:“分布式计算”,即一个单一程序跨多台机器运行,并利用空闲处理能力来完成其工作。这种“蠕虫”是第一个怪物,其他的怪物都由此衍生而来,拥有相同的基本 DNA,这种蠕虫在夜间生长(“对夜间探索的偏好导致一位研究人员将这些描述为‘吸血鬼程序’”),因为它分割各个未充分利用的机器以实现集体目的。从布鲁纳的小说到 1982 年的实验室,再到今天,其核心项目仍然相同:将所有的小盒子变成一台大机器。“我们没有将这种环境视为连接到网络的 100 台独立机器,而是将其视为一个 100 元素的多处理器,正在寻找一个要运行的程序。”此后,蠕虫在合法的计算机科学领域拥有悠久而传奇的历史,但布鲁纳、肖奇和哈普阐明的蠕虫程序概念也在僵尸网络及其垃圾邮件资助的运营中获得了非凡的生命力。

想象一下世界某处一栋大楼里的办公室隔间——可能在美国、台湾、德国或巴西。荧光灯在吊顶上嗡嗡作响。一名员工离开了他的办公桌。他的电脑正在播放家庭照片的屏幕保护程序。这台电脑——一台标准的中国制造的克隆机器,运行 Windows XP——处于空闲状态,但仍在通过其宽带连接进行自动行为。例如,它每隔几分钟就会在服务器上检查新邮件。少量但定期的请求和回复在其始终在线的网络连接上移动。

在过去的某个时候,也许当电脑用户访问恶意网页、下载和安装程序或打开陌生人发送的电子贺卡时,这台电脑感染了一段恶意软件,这是一种旨在利用计算机的程序。在这种情况下,恶意软件是一种蠕虫病毒,它是肖奇和哈普蠕虫概念的高度发展后代,以寄生程序的形式存在,能够自行运行。(这种行为将其与病毒区分开来,病毒需要在计算机上已有的另一个程序内部运行。)远远低于我们员工会注意到的任何级别,在磁盘空间的某个角落,蠕虫利用计算机上的空闲处理能力和始终在线连接的额外带宽来完成其工作,将计算机变成蠕虫程序员远程控制的工具——并自动变成将蠕虫传播到其他计算机的工具。这种恶意软件的感染点可能非常简单和隐蔽。也许这位员工收到了一封来自同事地址的电子邮件,警告邮件发送失败,并给出了无害且令人困惑的解释“邮件包含 Unicode 字符,已作为二进制附件发送”。他下载并打开附件,看到的只是一页毫无意义的符号。他关闭了页面,也许回复了他的同事——“你的上一封邮件有问题?”——或者将整个事件视为一个电脑谜团而忽略了。

当他打开该附件时,这位员工启动了蠕虫病毒来执行其秘密工作。在计算机上安装自身后,它开始搜索主机文件中的电子邮件地址,并向这些地址发送感染消息的版本,随机从一小部分集合中抽取标题、正文文本和附件名称,所有这些都同样令人困惑和乏味。它会查找流行的文件共享程序 Kazaa(Napster、Gnutella 和 Morpheus 等流行的点对点媒体文件共享程序组中的一个);如果找到它,它会将自身的一个版本复制到共享文件目录中,并使用诸如 strip-girl-2.0bdcom_patches.bat、office_crack.exe 或 winamp5 等名称之一。现在,在庞大的文件共享计算机网络中,有人浏览该用户的文件——或搜索“破解版”(免费、无保护)的 Microsoft Office 或脱衣舞女郎——会找到这些文件之一,下载它,启动它,看到一页毫无意义的符号或错误消息,并以类似的方式悄无声息地被感染。但蠕虫病毒除了复制自身之外,还有更多的事情要做。

它还会打开一个通往受感染计算机的“后门”,使其能够与其控制器通信并代表其执行命令,从而将计算机变成“僵尸”或“肉鸡”机器。它开始悄悄地通过其互联网连接的可用容量来回传输信息。它与“命令与控制”通道进行通信,在该通道上接收来自僵尸网络主人的指令。(该通道通常使用一种古老而稳健的聊天协议,称为互联网中继聊天 [IRC]。)给它的指令通常是这样的:获取这段文本(“您的网上银行已被阻止!/ 我们最近审查了您的账户,并怀疑您的美国银行账户可能已被未经授权的第三方访问”),并将其作为电子邮件发送到此地址列表。办公室隔间桌子上的电脑已成为垃圾邮件分发机器,并且有能力做更多的事情。它已加入僵尸网络。

为什么僵尸网络中会有“僵尸”?僵尸程序只是可以按照程序指令执行操作而无需人类持续干预的程序。它们可以关联数据,当有人询问时在聊天频道中提供行为准则,或者在程序员忙于其他事情时在网络上搜索电子邮件地址。这些能力使它们非常适合各种各样的计算机任务——其中之一就是发送垃圾邮件。早在在线社交的历史中,“floodbot”就会加入一个频道,并用“垃圾文本、无休止的侮辱或随机滚滚而来的数据风暴”填充它,从而扼杀正常的对话。82 在 1996 年,随着垃圾邮件作为一种有针对性的营销模式兴起,NANAE 成立,一家名为 GlobalMedia Design 的公司发布了 RoverBot,这是最早的地址收集机器人程序之一,它会获取关键词,查找相关页面,并在这些页面中搜索电子邮件地址,以便您可以生成与“房地产”或“漫画”相关的地址列表。而且,预示着日益自主的垃圾邮件运营的兴起,出现了垃圾邮件机器人程序 ActiveAgent,这是一个小小的噩梦,它会爬取网页以查找地址,并使用预先编程的文本向它们发送电子邮件;作者“Robert Returned”会将 ActiveAgent 的代码以 100 美元的价格出售给任何有需要的人。当然,当时已经开发出更有效的地址收集和邮件发送方法——这些方法最终将发展为僵尸网络。

我们虚构的员工的台式电脑正在运行一个真正的蠕虫病毒:它于 2004 年初首次发布,在安全社区中被称为 Mydoom,它具有很好的原型特征,可以解释僵尸网络的基础知识。特别是,它尾部的刺将僵尸网络带入了与军事领域的对话。“在 2004 年 2 月 1 日,”蠕虫病毒告诉受感染的计算机,“每毫秒请求 SCO 公司网站 http://www.sco.com, ,并持续到当月 12 日。”当您在浏览器的地址栏中输入“www.sco.com”并按回车键或点击指向 sco.com 的链接时,您就会请求一个网站:请求被发送到该地址的服务器,并且来自服务器的数据被接收并在您的屏幕上显示。这是服务器的正常业务,它们被构建和配置为处理来自一定数量用户的针对一定量数据的请求,具体取决于资源和预期用途。如果在很短的时间内收到太多请求,服务器将无法处理新请求,并且该网站将无法访问——它变得慢得无法使用或完全无法响应,使用户看到错误页面(“服务器可能不可用”、“服务器已超时”等等)。这被称为拒绝服务 (DoS)。DoS 通常是突然流行造成的,当一个通常每天只接收数百名访问者的个人网站出现在一个主要的博客或社交新闻网站上时,然后突然接收到数万名访问者并变得不堪重负。这种事件也可能被恶意利用。这就是愤怒的 Usenet 居民对 Portal 和 Internet Direct 进行的喧嚣报复,用愤怒的邮件和占用大量容量的图像文件淹没了服务器。

Mydoom 蠕虫病毒发出的这条命令旨在创建一个庞大的虚幻用户群体,他们从世界各地成千上万台计算机上一次又一次地请求该网站,有效地使该网站离线整整十二天,使其无法开展业务,并对其作为一家为企业客户提供安全服务器的公司声誉造成毁灭性打击。来自僵尸网络(一个全球机器网络)的协调行动,旨在使网站或服务器瘫痪,被称为分布式拒绝服务 (DDoS) 攻击。这种攻击可以用来勒索在线公司(如赌场)的钱财,阻止客户访问它们,消灭安全公司或其他敌人,以及攻击民用和政府互联网基础设施:这是一个从工具到武器的转变,垃圾邮件仅仅成为进一步发展的平台。

Mydoom 蠕虫病毒的代码中嵌入了一条令人心酸的消息:“(s y n c—1 . * * o * 0 1 ; a n d y * I ‘m j u s t d o i n g m y k * * * * o b, n o t h * p e r s o n a l * * * * * } r r y) B G @”,通常被音译为“(sync-1.01; andy; I’m just doing my job, nothing personal, sorry)”。Mydoom 的作者或多位作者从未被抓获;“job”和“Andy”仍然是谜团,只有一小群合作者、竞争对手、敌人和朋友知道。这段从一个人到另一个人的私人消息嵌入在代码中,在僵尸网络的规模背景下,创造了一种令人眼花缭乱的视差感——一个使垃圾邮件生产规模真正达到地球大小的系统。所有那些位于家庭、企业、宿舍和网吧的个人台式机和笔记本电脑都可以被视为单一资源,一个连续景观的一部分,以及一个巨大的、尚未开发的备用系统周期、带宽和敏感信息的宝库。一旦您拥有许多受感染计算机的分布式能力,这些计算机又自主地感染其他计算机,新的项目和可能性就会出现。僵尸网络成为一个平台,垃圾邮件只是在该平台上运行的“程序”之一,与密码破解(破解密码和加密)、点击欺诈(自动“点击”广告以增加广告托管商的收入)、各种身份盗窃和 DDoS 攻击——以及潜在的更多内容并存。这是一个新的运营规模的开始。

市场

作为一名见习僵尸网络主人的一生:您编写的蠕虫病毒,或者更有可能是从更熟练的程序员那里购买或盗取的蠕虫病毒,已经成功了,并且在几天内稳步扩散。您现在拥有成千上万台受损计算机,这些计算机在您的名义控制之下。它们的数量每天都在变化:也许新的感染潮增加了几千台,或者发布了一个补丁,修复了您一直在利用的安全漏洞(但您受感染机器的用户中只有几百人知道安装它,因此您不会损失那么多僵尸程序)。人们去度假,将他们的电脑关闭一两周;公司升级,旧机器——您的机器——被送到回收箱,被堆放在托盘上并运往阿克拉或圭屿。其他蠕虫病毒编写者和僵尸网络主人编写了旨在接管机器并清除已存在的感染(如您的感染)的程序。日复一日,世界各地受感染机器的用户在夜晚、周末和午休时间的周期中打开或关闭它们。僵尸程序群体的数量在不断变化且不可靠,您面临着如何利用您积累的所有这些分布式计算能力的非常现实的问题。您拥有安全分析师所说的“受害者云”,您可以利用它来赚钱生成垃圾邮件以及其他工作。您如何控制它?

在最抽象的层面上,您的方法是这样的:您使用古老但可靠的在线实时消息传递协议,即古老的 IRC。IRC 在自动化交互方面有着悠久的历史,早在更复杂的技术出现之前,聊天机器人就一直在响应命令和中继消息。您的所有受感染计算机都订阅您的 IRC 频道,该频道被称为命令与控制 (C&C) 频道,您可以轻松地向它们的群体发送指令,例如垃圾邮件活动的邮件文本和地址“目标列表”。然而,这种相对简单的安排会产生另一个问题:现在您的受损机器网络有一个单一的控制点,即该频道,因此很容易受到攻击和 seizure,无论是执法部门和“白帽”好人黑客,还是其他僵尸网络主人,他们可以征用您的频道并利用它来让您的机器为他们工作。(其他试图接管您的网络的僵尸网络主人是您面临的最大持续性问题。)有一些方法可以使您的 C&C 频道更安全。也许您设法混淆或加密了一些关键流量和代码,例如您用于控制僵尸程序的身份验证密码。这个技巧暂时可以阻止其他僵尸网络主人。下一个关键问题:您打算如何赚钱?

与垃圾邮件本身的发展一样,这一切都与利用新的功能有关:您现在就在这些计算机上,并且控制着它们。首先,您进行窥探,在受损计算机中搜索用户名、密码、电子邮件联系人、财务信息、秘密——并且您监控它们的网络流量以获取类似有用的材料,例如与关键词“paypal”和“paypal.com”相关的任何内容,这些内容可能附带密码。(当安全公司 Finjan 查获一台用于存储僵尸网络数据的服务器时,他们发现了来自美国、欧盟、印度、加拿大和土耳其受损机器的 1.4 千兆字节的材料,其中包括医疗保健提供商的患者数据以及通常大量的商业数据库和电子邮件日志。您自己有可能将其中许多资源货币化,但这通常也很耗时,并且如果没有适当的技能,可能会很危险——而且从银行账户和信用卡中安全地取钱与简单地获取信用卡号和账户登录信息是非常不同的事情。

相反,您将您的数据带入围绕在线犯罪形成的蓬勃发展的地下经济。您加入了另一个 IRC 频道:屏幕上显示着姓名或“昵称”,他们正在用拼写错误的全部小写字母进行交易,这种字母是市场的行话。“i need 1 mastercard i give 1 linux hacked root”弹出;“i have verified paypal accounts with good balance . . . and i can cashout paypals.” 值得信赖的用户,他们已经向频道管理员证明了他们的可靠性,他们的昵称末尾有一个 +v 符号,因此您知道您可以与他们做生意——他们不是小偷,“rippers”——至少在他们自己人之间不是。(“report ripperz to @s -Trade OPEN rippers are not alowed [sic] here . . . if u find one show the log.”)此时您可以通过几种不同的方式赚钱。您可以将您从您控制的受感染计算机中盗取的数据出售给“兑现者”,即知道如何将财务验证信息转化为金钱的人。您的兑现者本身可能需要与“确认者”合作,确认者可以使用被盗账户冒充汇款人。(因为兑现者通常需要特定于国家和性别——如果一个带有斯拉夫口音的男声在线,银行不会清理德克萨斯州一个女性名字的账户——例如,“fml CA US UK cashout”兑现者已经发展出一种奇怪的经济。)您也可以尝试与兑现者达成协议,以保留更多的利润。

您可以将您的整个僵尸网络出售以获得较小但快速的利润:目前的行情是每台受损计算机 4 美分到 1 角钱之间。他们向您支付总额,您将僵尸程序的 C&C 频道的密码和其他信息发送给他们——垃圾邮件工厂的钥匙。您还可以出租僵尸网络的时间和容量,用于其可以提供的所有服务:托管破解软件供下载,托管用于网络钓鱼信息的虚假网站(人们可以在电子邮件的诱导下输入他们的密码,误以为它属于 Facebook 或他们的银行),发起 DDoS 攻击,以及运行垃圾邮件活动。该频道也是为您的个人垃圾邮件项目做好准备的好地方,其中包含电子邮件帐户数据库,包括“有针对性”的集合——例如,那些拥有银行账户且更可能落入银行信息网络钓鱼骗局的专业人士——可供购买和交易。您可以获得网络区块(互联网地址范围)列表,这些列表明显脆弱或受到严密监控,或属于您可能想要利用或避免的某些组织。最后,您可以物物交换所有这些东西,将任何一种换成另一种:用您机器上的时间换取地址列表,用一些信用卡数据换取您网络中更多的数千台机器。在一次成功的垃圾邮件活动之后,其中混合了为客户提供的药品信息,以每百万封邮件的价格支付并发送到廉价、劣质的地址列表——以及为您的个人利润提供的网络钓鱼信息,发送到更精确、有针对性的列表——您可以回到市场,出售更多的数据,并用更多的钱从其他人那里购买工作和数据。

市场是跨国跳跃的——尽管它看起来很像您作为全球罪犯的工作生活中的大部分内容,就像您屏幕上的一个窗口,里面有文字。人们利用原始的文本/背景颜色选择,使他们的报价在绿色文字在棕色背景上或白色文字在电蓝色背景上的视觉叫喊战中脱颖而出。正在使用各种拼写错误的语言。在一个普通的下午,一个昵称“TOrPedO`”的人试图招揽生意:“CA (DOB + mmn + SIN + ATM PIN + Paypal with email access + Drivers License) = 12 $—AU (DOB + mmn + Paypal with email access + Drivers License + Medicare card number + ATM PIN) = 10 $—Also EU fulls selected countries could be spammed on Request. . . . SELLING cvv2s Available for Sale: Cvv2’s US bundle of 20 for 60$—EU countries bundle of 20 for 75$ ... SELLING MAIL LISTS 1Available for Sale: US, UK, CA, AU, European: IT, ES, GR, FR, GY. Bundle of 5mb = 40$—PM me now.” “PM”是“私信”:走出公共空间,完成交易。

如果 TOrPedO` 在这个场景中是您,您可以“按需”移动垃圾邮件,您有按国家/地区定位的地址列表出售给其他垃圾邮件发送者,您拥有所有身份盗窃基础知识,每个 12 美元,以及成捆的 CVV2——当卡不在现场时用于确认信用卡交易的三位数卡验证值——定价要移动。您积累的一些数据需要转化为金钱,而昵称 PhuckedUp 的人正在寻找客户:“Legit PinCashier, Looking for Supliers, i cashout FCU, CU, Small Banks, with limit of 3k ! msg me only serious supliers !”—FCU 和 CU 是“信用合作社”,即规模较小的银行业务。您在这个行业有很多竞争对手。zgfrik 发布:“selling abbey [Abbey banking] account with 23k on it,price 1000$—msg me if interested.” 与任何地方的市场一样,信任是一个问题,警告满天飞:“BOSNIAN RIPPERS Ognjen Miric AND Ervin Residbegovic—BOTH  LIVES  IN  Bosnia And  Herzegowina!  Sarajevo! ZIP: 71000 DONT BUY FROM ANYONE FROM BOSNIA // Sara- jevo! YOU WILL LOSE YOUR MONEY 110%!”

您发布您的通知:“=(REAL BANK LOGINS SPAM SUPPLYS)=(SELL BANK LOGINS\PRICE DEPENDS ON BALANCE 10% FROM IT)=(BIG BASE!)=(ADD ME>”,后跟聊天名称和电子邮件地址。稍后,当您在这个世界中遇到其他人时,您将转向秘密的受密码保护的频道,在那里会发生更严肃的行动。您已加入 21 世纪的垃圾邮件经济。

正如对专门从事恶意软件、垃圾邮件和信用卡盗窃交易的俄罗斯论坛的分析所记录的那样,这不是一份糟糕的营生。代表客户发送一百万封垃圾邮件的成本相当于一百美元——当然,还有批量折扣。一百万个地址 120 美元,如果您希望按国家/地区排序,则价格更高。拒绝服务攻击一小时 15 美元;持续时间更长的攻击价格更高,这需要更多的狡猾才能战胜目标在发现后可能采取的阻止策略。考虑到目标在攻击期间瘫痪的代价有多大,这是一种通过敲诈勒索赚钱的好方法。您可以出售一种名为“Pinch”的恶意软件程序,该程序可以从渗透的计算机中搜索银行数据和密码,您还可以出售您获得的原始数据——每兆字节 10 美元,供其他人仔细筛选以寻找有利可图的信息,并为实际提取资金而付出额外的努力。(企业之间的交易是通过 Yandex 和 WebMoney 等服务完成的,这些服务类似于 PayPal,但在俄罗斯和东欧具有更大的市场渗透率。)如果您以每张 10.66 美元的价格购买一百张“良好”的信用卡号(已验证,带有 CVV 和所有 ID 信息,具有高消费限额),其中可能有一半实际上可以用来购买商品并运往俄罗斯进行转售或倒卖,然后在您触发其反欺诈检测系统之前,每张卡仍然可以产生数百美元的价值,利润为 13,000 美元。一点也不差。

更划算的是预付款欺诈信息——前面描述的“尼日利亚垃圾邮件”——发送 20 万条信息的成本为 20 美元(它们更贵,因为它们必须在发送时更有针对性,并且在写作上更量身定制,以近期新闻和一些看似合理的细节为主题),回复率为 2% 或 3%,平均每个受害者的收益为 1,922.99 美元。即使垃圾邮件发送者没有钓到真正的大鱼,他们最终也可以期望获得约 20 万美元的利润,尽管这需要更多的工作。小偷之间可能没有荣誉,但有良好的客户服务。这种经济相互依存的部分包括商定的产品测试系统(僵尸网络的一部分,用于确认可用带宽,一批信用卡中的几张,以确保它们是真实的并检查余额)、退款保证、设计精美的界面、合作伙伴计划,以及迷人的香槟免费赠送,以共同完成交易。正如霍尔特所说,从短期来看,租用僵尸网络而不是自己构建一个僵尸网络是有意义的——您可以发送垃圾邮件并以稍微更高的利润率进行攻击,而无需维护。但是,如果您是一位真正有天赋和远见的程序员呢?如果您想构建一个更好的僵尸网络呢?

© . All rights reserved.