网络配置错误致Cloudflare大规模宕机

最后更新：2022-06-24 22:31:00 手机定位技术交流文章

一个网络配置错误导致Cloudflare大规模延迟。

Cloudflare是一个全球的云平台,向世界各地大小企业提供广泛的网络服务,使他们更安全,并改善其关键的互联网资产的性能和可靠性。

6月21日,Cloudflare表示,它遭受了19个数据中心和数百个主要的在线平台和服务的大量后勤。大规模延迟的原因是为提供网络灵活性设计的MCP架构配置更新的结果。

根据用户报告,受影响的网站和服务包括,但不限于,Amazon、Twitch、Amazon网站服务、Steam、Coinbase、Telegram、Discord、DoorDash和Gitlab。

Cloudflare调查显示,在UTC6:34时,用户被告知有连接到Cloudflare网络的故障。受影响地区的用户试图连接到Cloudflare网站将显示500个错误。

大规模调试事件影响到所有数据飞机服务

后来,Cloudflare正式发布了有关事件的调查报告,称延误是由于一项旨在提高繁忙区网络的耐久性而进行的长期项目的一部分变化造成的。时间表如下:

上午3时56分(UTC),Cloudflare第一次更改网络配置。使用旧版本架构的区域不受配置更改的影响,因为Cloudflare服务不受影响。

下午6:17(UTC),Cloudflare将更改另一个繁忙区域的配置,而不是使用MCP架构的区域。

在UTC6:27,MCP架构的位置被更改,然后云层服务被延迟,19个数据中心被关闭。

在6:32(UTC),事件在Cloudflare内部被发现。

上午6時51分(UTC),Cloudflare开始测试路由器以验证事故的原因。

上午6时58分(UTC),Cloudflare发现事故的根本原因并开始解决问题。

在7:42(UTC),所有数据中心恢复正常运行,并解决了所有问题。

Cloudflare大规模调试的影响

受影响的地点占Cloudflare总网络的4%左右,延迟影响到CloudflareHTTP请求处理的50%左右。

受影响的数据中心包括阿姆斯特丹、亚特兰大、阿什伯恩、芝加哥、法兰克福、伦敦、洛杉矶、马德里、曼彻斯特、迈阿密、米兰、孟买、纽瓦克、大阪、圣保罗、圣何塞、新加坡、悉尼和东京。

参考资料和来源: https://ww.bleeping computer.mass-cloudflare-outage-caused-by-network-configuration-error/