服务器命令中的单个错字导致AWS的S3崩溃

2019-10-16 16:59:58

在2月28日 Amazon Web Services位于北弗吉尼亚州数据中心的账单系统进行例行调试的过程中,单个错误输入的服务器命令被证明是造成大规模停机的原因,该停机造成 大约15万个网站 和/或业务服务 停滞了 大约一半。天。

这些问题导致网站和应用程序变得完全不可用,而其他人则指出链接和图像断开,使全球用户和公司感到沮丧和/或困惑。

一个人想知道如果发生了另外一两个错误的命令,那么互联网将会遭受多少损失。

公平地讲,像这样的AWS中断非常罕见。该公司在整个活动中保持透明, 经常更新其 状态页面。

向所有用户道歉

总部位于西雅图的Web服务和存储巨头于3月2日向数千家每天使用其服务的公司和数百万人道歉。事实证明,旨在停止其简单存储服务(S3)子系统之一的数量有限的服务器的命令输入错误;取而代之的是,它在3.5到5个小时的时间内删除了更多的服务器。

发现该错误后,需要重新启动整个系统。该公司表示,由于亚马逊网络服务部门在过去十年中发展迅速,该过程花费了比预期更长的时间。

S3是Amazon最大,使用最多的服务,该服务于2006年初推出,从而引发了云计算革命。AWS称,该公司的数百万客户中有超过500,000名使用它进行云存储。

在 事件的事后发表的 尸体中,AWS说:“我们要为该事件对我们的客户造成的影响深表歉意。尽管我们为拥有Amazon S3的长期可用性感到自豪,但我们知道这项服务对我们的重要性客户,他们的应用程序和最终用户以及他们的业务。我们将竭尽所能,从这次活动中学习并使用它来进一步提高可用性。”

AWS提供活动时间表

AWS通过以下方式阐明了事件的时间表:

“太平洋标准时间上午9:37,经过授权的S3小组成员使用已建立的剧本执行了一条命令,该命令旨在为S3计费过程使用的S3子系统之一删除少量服务器。不幸的是,其中一项输入命令输入错误,并且删除了比预期更大的服务器集。

“无意中删除的服务器支持另外两个S3子系统。”

该公司3月2日表示,它将对系统进行更改,以确保不正确的命令将来不会触发其Web服务中断。

2月28日受影响的服务包括Adobe的服务,Amazon的Twitch,Atlassian的Bitbucket和HipChat,Buffer,Business Insider,Carto,Chef,Citrix,Clarifai,Codecademy,Coindesk,Convo,Coursera,Cracked,Docker,Elastic,Expedia,Expensify,FanDuel ,FiftyThree,Flipboard,Flippa,Giphy,GitHub,GitLab,谷歌拥有的Fabric,温室,Heroku,家庭厨师,iFixit,IFTTT,Imgur,Ionic,isitdownrightnow.com,Jalf,JSTOR,Kickstarter,Lonely Planet,Mailchimp,Mapbox,中级,微软的HockeyApp,麻省理工学院技术评论,MuckRock,New Relic,新闻集团,PagerDuty,万神殿,Quora,Razer,Signal,Slack,Sprout Social,StatusPage,Travis CI,Trello,Twilio,Unbounce,美国证券交易委员会(SEC),佛蒙特州公共广播电台,VSCO和Zendesk等。

许多站点遭受局部中断

该公司报道,Airbnb,Down Detector,Freshdesk,Pinterest,SendGrid,Snapchat的Bitmoji和Time Inc.下午的工作缓慢。

苹果表示,其系统状态页面上的App Store,Apple Music,FaceTime,iCloud服务,iTunes,Photos和其他服务存在问题,但尚未确认它们是否归因于S3问题。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。