Amazon云计算服务因停电事故出现故障,致使美国东部的少量用户失去服务长达一个小时。
这次事故的原因,是一辆汽车撞倒了Amazon数据中心附近的高压电线杆,而数据中心的配电开关又未能正常地从公用电网切换到内部的备用发电机(配电自动化系统错误地将停电原因理解为电气接地)。
无独有偶,汽车撞倒电线杆导致数据中心断电的事情并不是第一次发生,2007年位于达拉斯的Rackspace数据中心也曾因为电线杆被卡车撞倒而导致停电。
值得注意的是,这是Amazon云计算服务一周内第四次因停电发生故障。5月8日的故障(因配电屏电气接地和短路)曾导致部分用户失去服务长达7个小时,而且还导致极少量用户的数据丢失。而5月4日的两次故障的原因则分别是一个UPS单元故障和人为操作失误。
在上几次故障之后,Amazon发布报告,表示它正在研究改变数据中心的配电架构,以减少此类事件的发生。它也同时提醒用户,可以在多个可用性区域部署实例,以防范此类事故。Amazon还提供了Amazon CloudWatch和Auto Scaling供用户快速从事故中恢复。