服务器命令中的单个错字导致AWS的S3崩溃

2019-10-16 16:59:58　来源： INeng财经

在2月28日 Amazon Web Services位于北弗吉尼亚州数据中心的账单系统进行例行调试的过程中，单个错误输入的服务器命令被证明是造成大规模停机的原因，该停机造成大约15万个网站和/或业务服务停滞了大约一半。天。

这些问题导致网站和应用程序变得完全不可用，而其他人则指出链接和图像断开，使全球用户和公司感到沮丧和/或困惑。

一个人想知道如果发生了另外一两个错误的命令，那么互联网将会遭受多少损失。

公平地讲，像这样的AWS中断非常罕见。该公司在整个活动中保持透明，经常更新其状态页面。

向所有用户道歉

总部位于西雅图的Web服务和存储巨头于3月2日向数千家每天使用其服务的公司和数百万人道歉。事实证明，旨在停止其简单存储服务(S3)子系统之一的数量有限的服务器的命令输入错误;取而代之的是，它在3.5到5个小时的时间内删除了更多的服务器。

发现该错误后，需要重新启动整个系统。该公司表示，由于亚马逊网络服务部门在过去十年中发展迅速，该过程花费了比预期更长的时间。

S3是Amazon最大，使用最多的服务，该服务于2006年初推出，从而引发了云计算革命。AWS称，该公司的数百万客户中有超过500,000名使用它进行云存储。

在事件的事后发表的尸体中，AWS说：“我们要为该事件对我们的客户造成的影响深表歉意。尽管我们为拥有Amazon S3的长期可用性感到自豪，但我们知道这项服务对我们的重要性客户，他们的应用程序和最终用户以及他们的业务。我们将竭尽所能，从这次活动中学习并使用它来进一步提高可用性。”

AWS提供活动时间表

AWS通过以下方式阐明了事件的时间表：

“太平洋标准时间上午9:37，经过授权的S3小组成员使用已建立的剧本执行了一条命令，该命令旨在为S3计费过程使用的S3子系统之一删除少量服务器。不幸的是，其中一项输入命令输入错误，并且删除了比预期更大的服务器集。

“无意中删除的服务器支持另外两个S3子系统。”

该公司3月2日表示，它将对系统进行更改，以确保不正确的命令将来不会触发其Web服务中断。

2月28日受影响的服务包括Adobe的服务，Amazon的Twitch，Atlassian的Bitbucket和HipChat，Buffer，Business Insider，Carto，Chef，Citrix，Clarifai，Codecademy，Coindesk，Convo，Coursera，Cracked，Docker，Elastic，Expedia，Expensify，FanDuel ，FiftyThree，Flipboard，Flippa，Giphy，GitHub，GitLab，谷歌拥有的Fabric，温室，Heroku，家庭厨师，iFixit，IFTTT，Imgur，Ionic，isitdownrightnow.com，Jalf，JSTOR，Kickstarter，Lonely Planet，Mailchimp，Mapbox，中级，微软的HockeyApp，麻省理工学院技术评论，MuckRock，New Relic，新闻集团，PagerDuty，万神殿，Quora，Razer，Signal，Slack，Sprout Social，StatusPage，Travis CI，Trello，Twilio，Unbounce，美国证券交易委员会(SEC)，佛蒙特州公共广播电台，VSCO和Zendesk等。

许多站点遭受局部中断

该公司报道，Airbnb，Down Detector，Freshdesk，Pinterest，SendGrid，Snapchat的Bitmoji和Time Inc.下午的工作缓慢。

苹果表示，其系统状态页面上的App Store，Apple Music，FaceTime，iCloud服务，iTunes，Photos和其他服务存在问题，但尚未确认它们是否归因于S3问题。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

标签：导致AWS的S3崩溃