2025 年 11 月 18 日 UTC 11:20 ,Cloudflare 网络开始出现核心流量 Deliver 严重故障。对于试图访问我们客户网站的互联网用户而言,这一故障表现为显示 Cloudflare 网络内部出错的错误页面。
此次故障并非由任何类型的网络攻击或恶意行为直接或间接导致。实际起因是我们对某一数据库系统的权限进行了变更,这一变更导致该数据库向 Bot 管理系统所使用的 “特征文件” 中输出了多条重复记录,进而使该特征文件的体积翻倍。随后,这份超出预期大小的特征文件被同步至我们网络中的所有服务器节点。
这些服务器上运行的流量路由软件会读取该特征文件,以确保 Bot 管理系统能够及时应对不断变化的安全威胁。但该软件对特征文件的大小设有上限,而翻倍后的文件体积已超出这一限制,最终导致软件运行故障。
起初,我们误将观察到的故障现象归因于超大规模 DDoS 攻击,但随后迅速锁定了核心问题。我们立即停止了超大体积特征文件的同步,并将其替换为早期版本的正常文件。截至 14:30 (译注:对应 UTC+8 22:30 ),核心流量已基本恢复正常。在接下来的数小时内,我们持续处理网络各环节因流量回流产生的负载激增问题,至 17:06 (译注:对应 UTC+8 次日 01:06 ),Cloudflare 所有系统均恢复正常运行。
对于此次故障给我们的客户以及全球互联网造成的影响,我们深表歉意。鉴于 Cloudflare 在互联网生态系统中的重要性,任何系统中断都是不可接受的。网络无法正常路由流量的这段时间,让我们团队的每一位成员都深感痛心。我们知道,今天我们让大家失望了。
本文将详细复盘事件的完整经过、暴露的系统与流程问题。同时,这也是我们一系列改进措施的起点(而非终点)—— 我们将通过这些措施,确保此类故障不再重演。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.