Cloudflare 更新博客介绍 11 月 18 日全球范围故障:数据库系统权限变更

4 天前
 RedisMasterNode

2025 年 11 月 18 日 UTC 11:20 ,Cloudflare 网络开始出现核心流量 Deliver 严重故障。对于试图访问我们客户网站的互联网用户而言,这一故障表现为显示 Cloudflare 网络内部出错的错误页面。

此次故障并非由任何类型的网络攻击或恶意行为直接或间接导致。实际起因是我们对某一数据库系统的权限进行了变更,这一变更导致该数据库向 Bot 管理系统所使用的 “特征文件” 中输出了多条重复记录,进而使该特征文件的体积翻倍。随后,这份超出预期大小的特征文件被同步至我们网络中的所有服务器节点。

这些服务器上运行的流量路由软件会读取该特征文件,以确保 Bot 管理系统能够及时应对不断变化的安全威胁。但该软件对特征文件的大小设有上限,而翻倍后的文件体积已超出这一限制,最终导致软件运行故障。

起初,我们误将观察到的故障现象归因于超大规模 DDoS 攻击,但随后迅速锁定了核心问题。我们立即停止了超大体积特征文件的同步,并将其替换为早期版本的正常文件。截至 14:30 (译注:对应 UTC+8 22:30 ),核心流量已基本恢复正常。在接下来的数小时内,我们持续处理网络各环节因流量回流产生的负载激增问题,至 17:06 (译注:对应 UTC+8 次日 01:06 ),Cloudflare 所有系统均恢复正常运行。

对于此次故障给我们的客户以及全球互联网造成的影响,我们深表歉意。鉴于 Cloudflare 在互联网生态系统中的重要性,任何系统中断都是不可接受的。网络无法正常路由流量的这段时间,让我们团队的每一位成员都深感痛心。我们知道,今天我们让大家失望了。

本文将详细复盘事件的完整经过、暴露的系统与流程问题。同时,这也是我们一系列改进措施的起点(而非终点)—— 我们将通过这些措施,确保此类故障不再重演。

原文: https://blog.cloudflare.com/18-november-2025-outage/

2142 次点击
所在节点    程序员
8 条回复
victimsss
4 天前
刚上热乎的了,应用的用户模块刚接入 Cloudflare Turnstile ,就出现问题。
Nugine0
4 天前
只能说匪夷所思。
cloudflare 没有灰度机制吗?一下子把全球的权限和配置全改掉?测试呢?这很难测出来吗?
设计时没预料到数据库权限问题?雪崩不做防御?
这下真得屋千蟑/海恩法则了。
penzi
4 天前
@Nugine0 你以为这是一个微服务吗?
idealhs
4 天前
上午提的代码,下午就回家休息了
Nugine0
4 天前
@penzi 和微服务无关,这种规模的分布式系统出现全球崩溃,本身已经说明问题了
MIUIOS
4 天前
用 ai 总结一下
大概就是他们利用一个 ClickHouse 采集用户的行为,然后把这些行为丢给一个机器人模块(其实就是个大模型)去给这个用户做风险评分(也就是风控)最后大模型生成出一个评分配置文件丢给节点,节点会根据这个配置去生成对应防火墙规则,结果有人去改了数据库权限啥的,导致它生成出了一个错误的配置文件(重复多行),然后迅速推到了整个网络,然后炸了

难怪一开始香港节点炸了,我切换到美国的就可以,后面美国的也炸了,我又切到英国的,结果也炸了。。
1daydayde
4 天前
@Nugine0 #2 灰度数据量级不够也测不出来啊
ethusdt
3 天前
> After we initially wrongly suspected the symptoms we were seeing were caused by a hyper-scale DDoS attack

团队以为是遭遇了大规模 DDoS 攻击,延缓了定位真实根因的时间。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1173671

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX