欢迎光临KOTOO财情




AWS 公开服务故障原因,员工除错时输入错误指令

2024-05-08 212

日前 AWS 服务故障,影响众多网站。AWS 公开了故障原因,表示员工在除错时输入错误指令,移除了较正常数目为多的服务器,进而影响 S3 两个子系统的运作。

两个 S3 子系统需重新启动

AWS 北维吉尼亚州的数据中心(US-EAST-1)日前发生故障,影响众多网站,现在公开更多细节。他们表示,S3 团队日前发现支付系统的运作较慢,于是输入指令,打算移除 S3 子系统中用于处理支付的少量服务器,但其中一个指令有误,导致更多的服务器也被移除。

该些服务器是用作支援另外两个 S3 子系统的运作。一个是索引子系统 (Index subsystem),用于管理 S3 物件的元资料(metadata)和地方资料,需要处理所有 GET、LIST、PUT 和 DELETE 请求;另一个是存放子系统(Placement subsystem) ,负责管理新储存的分布,需要索引子系统方可正常运作,当要处理 PUT 请求时便会用到。

由于为数不少的容量(capacity)被移除,子系统需要重新启动,过程中 S3 无法处理服务请求。因此其他依赖 S3 运作的储存服务,如 S3 控制台、Amazon EC2 建立新执行个体(instance)、Amazon EBS 和 Amazon Lambda 都无法运作。

AWS 称,由于两个子系统已经多年未有完全重新启动,加上 S3 近年迅速发展,重新启动和检查数据的时间较预期中久。

他们又指,之前的工具把容量移除得太快,现在他们已改良工具,减慢移除速度,并确保子系统不会有过少的容量,避免相同事件发生。他们也就事件致歉,将汲取教训提升可靠度。

  • Summary of the Amazon S3 Service Disruption in the Northern Virginia (US-EAST-1) Region

(本文由 Unwire Pro 授权转载;首图来源:AWS)

延伸阅读:

  • 亚马逊云端服务 AWS S3 故障,波及 Adobe、Slack 等多家线上服务
2019-03-22 13:30:00

标签:   资讯头条 kotoo科技资讯 kotoo科技 kotoo科技资讯头条 科技资讯头条 KOTOO商业产经 新闻网 科技新闻网 科技新闻 Kotoo科技新闻网 Kotoo Kotoo科技新闻网 科技新闻 新闻网 KOTOO商业产经 科技资讯头条 kotoo科技资讯头条 kotoo科技 kotoo科技资讯 资讯头条 Kotoo Kotoo科技新闻网 科技新闻 科技新闻网 新闻网 KOTOO商业产经 科技资讯头条 kotoo科技资讯头条 kotoo科技 资讯头条
0