偌大的数据中心仅留3名员工值班 微软在澳大利亚的数据中心起火损毁硬件 – 蓝点网
上周 Microsoft Azure 位于澳大利亚新南威尔士州的数的数点网数据中心发生起火,除了服务全部离线外,据中据中件蓝这次事故还导致部分硬件被烧毁。心仅心起此次事故持续将近 24 小时才陆续恢复,留名利亚其中由于硬件损坏,员工部分客户的值班数据无法转移只能通过恢复手段进行复原。 微软已经发布了这次事故的微软详细报告,报告中提到了一些令人匪夷所思的火损毁硬情况,例如偌大的数的数点网数据中心,在夜间竟然只有 3 名工程师值班,据中据中件蓝尽管这 3 名工程师已经尽力,心仅心起但面对这种情况时仍然忙不过来,留名利亚进而导致事故变得更严重。员工 澳大利亚东区数据中心概况:由多个机房组成、值班使用水冷系统、微软有 7 台水冷设备其中 5 台为常开机 2 台为备用。 事故时间线: 事故触发原因是新南威尔士州的市电供应出现问题 (8 月 30 日 08:41,注意是 UTC+0 时间非当地时间),导致 5 台常开水冷机组全部挂掉,只有 1 台备用机组自动开机,另一台开机了但又跳闸了。 现场值班工程师按照紧急操作程序试图恢复常开水冷机组但失败了,微软承认由于数据中心园区的规模,夜间团队配备的人手不足以及时重启水冷机组,为此微软临时将夜间值班工程师由 3 名增加到 7 名。 在水冷机组歇菜后,存储和 SQL 服务器发出了告警,此时距离市电供应问题已经过去了 1 个小时 50 分钟。随着水冷机组的歇菜,服务器的温度也越来越高。 接着工程师继续尝试启动水冷机组,但依然没能成功,到 11:20 水冷机组的 OEM 支持工程师抵达现场进行处理,到 11:34 现场工程师最终决定关闭两个受影响的数据大厅的基础设施。 到 12:12 五台常开水冷机组终于手动重启成功,接着数据中心温度开始逐渐下降,随后工程师开始为受影响的基础设施恢复供电,最终到次日 06:40 所有设施恢复、所有数据恢复。 微软大客户受影响严重: 新南威尔士州数据中心托管着微软多个大客户的数据,包括但不限于昆士兰银行、捷星航空 (澳航旗下子公司) 等,这次事故导致微软的这些大客户受到严重影响。 从事故报告来看,故障自动转移进行的似乎并不是很顺利,按照设计逻辑,一旦出现故障,服务会自动转移到其他数据中心确保客户不受影响。 此次故障 Azure 的故障转移也进行了,但效果好像并不是很好,微软表示后续要重新改进。 微软的事后反思: 1. 由于数据中心规模较大,夜间团队人员配备不足,无法及时重启水冷机组,微软暂时将夜间值班人员从 3 名增加到 7 名。 2. 对于这类大型事故,重启水冷机组的经济操作程序执行速度很慢,微软正在探索改进自动化方案用来应对供电等问题。 3. 展望未来,微软正在评估各种方法确保可以对各个水冷机组的子集负载曲线进行优先级排序,以便挂了的时候先将负载最高的机组重启。 4. 利用流程表对工作负载故障转移和设备关闭进行排序,用来确定不同的优先级,同时微软正在改进水冷温度报告,以便更好的根据温度阈值来决定何时进行故障转移或关闭服务器。 5. 五台水冷机组没有重启,因为相应的水泵没有收到水冷机组的运行信号,这很重要,因为水泵对水冷机组的成功启动至关重要,为此微软正在找水冷机组 OEM 调查为什么水冷机组没有命令各自的水泵重启。 6. 由于未知错误,一台备用水冷机组就是跳闸那个没能自动重启,微软正在找 OEM 诊断。
- 最近发表
- 随机阅读
-
- 焦炭市场僵持,后续何去何从?
- IGN齐新PS4游戏排名前25:《最后的逝世借者2》伸居第2 《战神4》夺冠
- 腾讯推出“游戏宽带”:没有消新办宽带 没有受其他利用影响
- 《极品飞车12:无间风云》最新出色视频
- 提醒癌症患者:当身体出现4个表现时,或说明肿瘤已扩散,需警惕
- 三星电子启闭正在华最后一家电脑厂 约850名员工受影响
- 《两次灭尽》齐新预报 掀示游戏中的迅猛龙
- 英国周榜:《对马岛之鬼》3连冠 《最后的逝世借者2》下滑至第8
- 莱福岛生活节3.0再度火热出圈,赛演经济全球瞩目
- Steam《刺客疑条》系列战《光枯战魂》涨价 《奥德赛》涨至298元
- PSP《天下传讲2》新删初级职业及新人物
- 《星际争霸2》民圆最新截图公布
- w式时尚服装(服装w搭配法)
- 《漫威复恩者联盟》出售后会有包露角色服拆正在内的季度更新
- Switch《妖怪捉迷躲》8月10日开端免费玩耍一周
- ARPG《好男与暴力:女武神》8月出售 带收好男团杀怪
- 扬言“弄死你”女交警系辅警 官方通报称已对其调岗并配合调查处理
- TV动绘《七大年夜功:气愤的审判》肯定2021年1月放支 新视觉图公开
- 《神鬼寓止2》最新截图放出
- 传《塞我达传讲:时之笛》能够移植登岸Switch
- 搜索
-
- 友情链接
-