这次 cloudflare 宕机是什么原因造成的？

RTSmile

23 小时 34 分钟前

@arloor 远远达不到垄断的程度，这次虽然崩得网站不少但是还是有一大堆网站没受影响，足以说明 cloudflare 和别家的 cdn 都是正常竞争。

kimizen

23 小时 34 分钟前

@arloor 不准你这么说我的赛博大恩人！

hh7418695

19 小时 27 分钟前

@JoeJoeJoe 哈哈哈哈哈哈哈哈神评

rick13

17 小时 30 分钟前

等 blog 呗，cf 对于事故复盘 blog 还是认真的

x86

17 小时 30 分钟前

大概率是阻止我航班起飞🥵

noqwerty

17 小时 9 分钟前

官方博客的 postmortem 已经发布了： https://blog.cloudflare.com/18-november-2025-outage/

acthtml

17 小时 4 分钟前

这 cto 写的说明真实简洁明了。

aloxaf

16 小时 53 分钟前

在错误处理上偷懒导致的（ 😂

villivateur

16 小时 52 分钟前

@noqwerty 简单看了下，应该是错误配置导致一个文件体积迅速增长撑爆磁盘？如果是这样的化，应该比较好解释为什么中途好了一阵子，可能就像之前的段子说的，在硬盘里提前放一个没用的大文件，硬盘不够用了就先删除，可以临时撑一阵子。

realpg

16 小时 52 分钟前

这要是个中国云厂商估计 V2 帖子得多一百倍

hafuhafu

16 小时 51 分钟前

看了一下博客，我没理解错的话：
原因：说是权限变更导致数据库某个查询输出了意外的多条数据，然后导致产生的配置文件体积超级加倍，并下发到了所有机器上。然后机器上有个跨网络路由软件会读这个配置文件，但是软件内对读取文件的大小进行了限制，因为异常的文件太大了，超过了这个限制，所以就导致路由软件失效了，然后就全崩了。
排查：他们最早以为是被大规模 D 了，后面排查到了正确的原因，用配置文件的早期版本替换了。
时间线：
大规模出现故障 2025 年 11 月 18 日 11:20 UTC
核心流量恢复正常 2025 年 11 月 18 日 14:30 UTC
所有系统正常运行 2025 年 11 月 18 日 17:06 UTC

Debug1998

16 小时 49 分钟前

昨天晚上小黄网进不去，我以为我梯子挂了。

kamikaze472

16 小时 47 分钟前

@realpg #36 我个人感觉, 之前阿里云崩了, 远没有 Cloudflare 崩了帖子多

noqwerty

16 小时 41 分钟前

@villivateur 不是磁盘空间不足，是新部署的 ClickHouse 查询返回了重复的特征，这个特征文件是传给下游一个判断请求是否来自爬虫的模型的，特征数量超出了模型代码预期，于是直接抛错了

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1173600

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.