ASP站长网(http://www.aspzz.cn)表示还记得2017年5月27日CBRE数据中心的停电事故吗?虽然已经过去18个月之久,但是现在想起来仍然惶恐。因为CBRE数据中心停电事故的发生,英国航空公司的预订、办理登机手续系统、呼叫中心和移动应用程序受影响而无法使用,导致英国航空公司672个航班被取消,75000名乘客的航班被取消或延迟,预计损失超过1亿英镑。
英国航空公司拥有Boadicea House和Comet House两个数据中心,在停电事故中,Boadicea House首先受到影响,而作为备份数据中心的Boadicea House在事故中并没有发挥作用,因此事故一直持续了三天时间。
事后,经英国航空公司调查,此次事故并不是因为网络攻击而是由于承包商意外封锁数据中心电源造成的。
除了英国航空公司停电事故之外,国外还有许多类似的情况,例如,美国达美航空公司数据中心的电力中断,造成高达1.5亿美元的经济损失;美国“超级碗”赛场断电,耽误赛事日程等。
然而,数据中心运营商所面临的困难是确定停电的根本原因,因为电力中断的原因比较复杂,例如,服务器负载过重,导致系统崩溃;当地电力供应商的供应问题,工作人员误操作的人为因素等。
为了确保数据中心停电事故再次发生,数据中心运营商应该关注的最重要的问题:
1、可以随着快速发展的电力系统迁移吗?
数据中心在不同发展阶段,对电力需求也在变化。因此,能够分析数据中心一段时间内对电力的需求是非常重要的,以便更容易地进行长期预测。
2、电源链是否受到威胁?
越来越多的数据中心连接到网络,除了机架中包含的终端和访问点之外,很多渠道可能会成为破坏网路犯罪行为的破坏途径。
此外,网络违规行为甚至不需要通过电线和电缆来实施。狡猾的犯罪分子可能会进入某个数据中心,破坏内部的电力供应。但是,不仅仅是外部的恶意人员所造成的危害,也要警惕数据中心内部工作人员的行为。有些知识和经验不足的工作人员在与接口进行交互的过程中犯错,也会造成不可估量的伤害。
为了防止出现这种情况,运维文档和流程控制至关重要。采用更多的硬件不是防止灾难性停电的最佳选择,事实上,添加额外的硬件实际上可能使控制情况更加糟糕。