2011年4月29日

亚马逊解释近期导致 Foursquare 和 Reddit 宕机的事件

本文发表于《大众科学》的前博客网络，反映了作者的观点，不一定反映《大众科学》的观点

亚马逊网络服务有限责任公司 (AWS)，在线市场 Amazon.com 的云计算部门，于周五解释了上周服务中断期间发生的事情，该中断影响了其许多客户的网站。AWS 由亚马逊于 2006 年成立，旨在利用云计算的热潮，在 4 月 21 日因网络配置更改而遇到问题，该问题花费了数天时间才修复，导致由基于位置的社交网络 Foursquare、云服务提供商 Engine Yard、社交新闻媒体 Reddit 和其他几个网站运行的网站访问速度变慢或无法访问。

“此事件的触发因素是网络配置更改，”该公司在其网站上的一则消息中证实。“我们将审核我们的变更流程并增加自动化程度，以防止将来再次发生此类错误。”

关于支持科学新闻业

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻业订阅。通过购买订阅，您正在帮助确保未来能够继续讲述关于塑造我们当今世界的发现和想法的有影响力的故事。

在 AWS 中断期间，该公司所谓的“弹性块”数据存储 (EBS) 变得无法执行某些功能。此存储由计算机集群组成，这些集群存储、管理和备份客户数据。集群本身由各个节点计算机组成，这些节点通过两个网络连接——一个管理正常流量的主高带宽网络和一个容量较低的备份网络。问题始于 4 月 21 日，当时亚马逊试图升级服务于美国东部的网络的容量。该公司错误地将网络流量从主网络转移到备份网络，而备份网络无法充分处理活动量。

一旦意识到错误并将流量转移回主网络，主网络上的存储节点就被大量数据淹没，并且找不到足够的空间来容纳所有数据。就像玩抢椅子游戏一样，一些数据陷入了僵局，不断地寻找空闲的存储空间。这阻碍了进入系统的新存储空间请求，导致使用亚马逊服务的网站部分速度变慢或关闭。

该公司通过禁用新的存储请求来纠正此问题，但损害已经造成。不堪重负的节点开始出现故障，加剧了数据过多而可用存储空间不足的问题。AWS 在接下来的几天内通过增加网络存储容量和调整其存储管理软件来解决了这个问题。

丹麦上空的暴风云图片由 Malene Thyssen 提供，通过 Wikimedia Commons