这次 cloudflare 宕机是什么原因造成的？

Cloudflare

宕机

AI

85 条回复 • 2025-11-19 21:54:37 +08:00

1

wsseo

1 天前

重大影响

2

wsseo

1 天前

现在是时好时坏，哎

3

surbomfla

1 天前

问题原因等官方发布报告吧，目前很多网站访问恢复了，希望不要再挂了吧

4

coderlxm

1 天前 via Android

刚才好了一会然后又挂了，现在又好了哈哈

5

zsuxiong

1 天前

大半个全球互联网都瘫痪了。

6

JoeJoeJoe

PRO

1 天前

2

测试一下自己对世界互联网的影响力：）

7

laojuelv

PRO

1 天前 via iPhone

我以为我的梯子坏了。还是 ip 被封了

8

harrietliu

1 天前

大概是下午四点五十左右就崩掉了

9

darrh00

1 天前

v2ex 有备份访问方式吗？

10

daybreakfangyang

1 天前

AI 觉醒啦？🙂

11

moefishtang

1 天前

用来摸鱼的网站都炸了😑
All in CloudFlare.All in boom.

12

PositionZero

1 天前 via Android

这地图应该换成世界地图

13

ToPoGE

1 天前

9

不是网络攻击

cloudflare CTO 已经明说了

I won’t mince words: earlier today we failed our customers and the broader Internet when a problem in
@Cloudflare
network impacted large amounts of traffic that rely on us. The sites, businesses, and organizations that rely on Cloudflare depend on us being available and I apologize for the impact that we caused.

Transparency about what happened matters, and we plan to share a breakdown with more details in a few hours. In short, a latent bug in a service underpinning our bot mitigation capability started to crash after a routine configuration change we made. That cascaded into a broad degradation to our network and other services. This was not an attack.

That issue, impact it caused, and time to resolution is unacceptable. Work is already underway to make sure it does not happen again, but I know it caused real pain today. The trust our customers place in us is what we value the most and we are going to do what it takes to earn that back.

https://x.com/dok2001/status/1990791419653484646

14

bOOOOc

1 天前 via iPhone

cf 说的原因是“unusual traffic spike”

https://www.businessinsider.com/cloudflare-outage-internet-down-x-open-ai-2025-11

15

ervqq

1 天前

https://www.cloudflarestatus.com/ 看官方监控，现在已经恢复了

16

SenLief

1 天前

突然发现常去的网站都是套的 cf ，一挂全挂了。

17

usn

PRO

1 天前 via iPhone

cf 真的太烂了，这就是垄断互联网之后为所欲为的表现

18

usn

PRO

1 天前 via iPhone

事实上任何垄断都不好

19

How

1 天前 via Android

互联网发展了二十多年就辛迪加了，赛博朋克就在不远的未来

20

israinbow

22 小时 22 分钟前

@usn #17 不是 cf 垄断, 是它不要钱所以大家都在用.

21

arloor

22 小时 13 分钟前 via Android

1

@israinbow 那也是垄断啊

22

docx

22 小时 9 分钟前 via iPhone

30

免费给你用，你说他垄断，这对吗？

23

iango

21 小时 40 分钟前

@usn
cloudflare 还排不上第一名，只能算第二梯队前列，要跟 AWS 、Google 、Azure 竞争。
CDN 服务老大是 Akamai 。

24

usn

PRO

21 小时 22 分钟前

1

@iango 好的，明白了，cf 只是善，但是能力不行

25

RTSmile

21 小时 19 分钟前 via iPhone

2

@usn 能力比你强多了

26

usn

PRO

21 小时 18 分钟前

@RTSmile ？

27

RTSmile

21 小时 13 分钟前 via iPhone

@arloor 远远达不到垄断的程度，这次虽然崩得网站不少但是还是有一大堆网站没受影响，足以说明 cloudflare 和别家的 cdn 都是正常竞争。

28

kimizen

21 小时 13 分钟前

5

@arloor 不准你这么说我的赛博大恩人！

29

hh7418695

17 小时 6 分钟前

@JoeJoeJoe 哈哈哈哈哈哈哈哈神评

30

rick13

15 小时 9 分钟前

等 blog 呗，cf 对于事故复盘 blog 还是认真的

31

x86

15 小时 9 分钟前

大概率是阻止我航班起飞🥵

32

noqwerty

14 小时 48 分钟前 via iPhone

1

官方博客的 postmortem 已经发布了： https://blog.cloudflare.com/18-november-2025-outage/

33

acthtml

14 小时 43 分钟前

这 cto 写的说明真实简洁明了。

34

aloxaf

14 小时 32 分钟前

在错误处理上偷懒导致的（ 😂

35

villivateur

14 小时 31 分钟前

@noqwerty 简单看了下，应该是错误配置导致一个文件体积迅速增长撑爆磁盘？如果是这样的化，应该比较好解释为什么中途好了一阵子，可能就像之前的段子说的，在硬盘里提前放一个没用的大文件，硬盘不够用了就先删除，可以临时撑一阵子。

36

realpg

PRO

14 小时 31 分钟前

2

这要是个中国云厂商估计 V2 帖子得多一百倍

37

hafuhafu

14 小时 29 分钟前

看了一下博客，我没理解错的话：
原因：说是权限变更导致数据库某个查询输出了意外的多条数据，然后导致产生的配置文件体积超级加倍，并下发到了所有机器上。然后机器上有个跨网络路由软件会读这个配置文件，但是软件内对读取文件的大小进行了限制，因为异常的文件太大了，超过了这个限制，所以就导致路由软件失效了，然后就全崩了。
排查：他们最早以为是被大规模 D 了，后面排查到了正确的原因，用配置文件的早期版本替换了。
时间线：
大规模出现故障 2025 年 11 月 18 日 11:20 UTC
核心流量恢复正常 2025 年 11 月 18 日 14:30 UTC
所有系统正常运行 2025 年 11 月 18 日 17:06 UTC

38

Debug1998

14 小时 28 分钟前

昨天晚上小黄网进不去，我以为我梯子挂了。

39

kamikaze472

14 小时 26 分钟前

@realpg #36 我个人感觉, 之前阿里云崩了, 远没有 Cloudflare 崩了帖子多

40

noqwerty

14 小时 20 分钟前 via iPhone

@villivateur 不是磁盘空间不足，是新部署的 ClickHouse 查询返回了重复的特征，这个特征文件是传给下游一个判断请求是否来自爬虫的模型的，特征数量超出了模型代码预期，于是直接抛错了

41

JYii

14 小时 19 分钟前

@realpg #36 那不肯定的吗，v 站基本都是国人，依赖国内服务，国内厂商炸了肯定反馈更多。还是说你要阴阳其他东西。

42

hafuhafu

14 小时 9 分钟前

@hafuhafu -> 还不是文件体积大小的问题。是里面配置的功能数量的限制。一般正常情况下，这个数量大概会有 60 个+，所以他们预设了正常情况下一个比较大的值 200 当最大限制，并且代码里取值的时候用 unwrap ，如果有异常程序就直接崩溃了。不懂 rust 不过这个 unwrap 这么危险么...

43

Tink

PRO

14 小时 4 分钟前

数据库配置失误。

故障原因并非网络攻击，而是数据库权限变更导致机器人管理系统的配置文件异常增大，超出系统预设限制，引发核心代理服务崩溃。受影响的服务包括 CDN 、安全服务、Workers KV 、Access 认证和控制面板等。

44

realpg

PRO

13 小时 58 分钟前

@JYii #41
这么多帖子有一个喷 cf 的吗? 甚至回复都没一个指责的...

45

poilkj19

13 小时 55 分钟前

@Debug1998 我也是，我还充了会员呢，以为站长跑路了

46

fcbwalk

13 小时 50 分钟前

1

@realpg cf 大善人，喷不起来啊，有几个这样良心的公司。

47

jzhm

13 小时 49 分钟前

@kimizen #28 哈哈哈哈哈

48

wowo243

13 小时 48 分钟前

@Debug1998 #38 小黄网都用 cf 吗

49

anzu

13 小时 42 分钟前

> 当你用了 unwrap() 而未经测试的时候

50

killva4624

13 小时 39 分钟前

@noqwerty #32 和之前阿里云配置变更引发的异常好相似。

51

Rainwater

13 小时 31 分钟前

@realpg #44 付费的用户肯定会喷，大部分都是白嫖的

52

usVexMownCzar

13 小时 29 分钟前 via iPhone

@wowo243 必须的，昨晚想擦枪，好几个枪械网站都打不开🌚

53

ruanimal

13 小时 23 分钟前

@hafuhafu unwarp 相当于 assert ，而且这种情况什么异常处理也没用

54

cmos

13 小时 14 分钟前

@hafuhafu 42#
我们公司用 unwarp ，在 code review 的时候会被拷打

55

zhanlanhuizhang

13 小时 3 分钟前

https://blog.cloudflare.com/18-november-2025-outage/

56

okayan

13 小时 2 分钟前

@kimizen 哈哈哈哈

57

Debug1998

12 小时 48 分钟前

@wowo243 吃瓜网用的

58

Nugine0

12 小时 39 分钟前

整个流程只要有一个阶段发挥作用都不会全球崩溃吧。
设计：不评估数据库权限问题？
开发：谁让你用 unwrap 的？
测试：非法配置文件 bug 很难测出来？
上线：你灰度呢？直接改全球？
故障：雪崩不做防御？

这么看来 cloudflare 也挺草台的

59

dylyft

12 小时 38 分钟前

@realpg 还是有的, 17 楼就在喷呢

60

dif

12 小时 32 分钟前

免费的东西，就是挂一天也没关系。这都是以前折腾免费主机，免费域名锻炼出的。

61

JoshTheLegend

12 小时 24 分钟前

听说，证实，疑似。这几个词能同时出现，还是出现在技术类的帖子，叹为观止。

62

digimoon

12 小时 9 分钟前

@usn 你其他厂商不服的话也可以学 cf 免费给我们用占市场啊

63

edisonwong

11 小时 51 分钟前

这个故事告诉我们不要动 db ，尤其 dcl,ddl

64

ca2oh4

11 小时 37 分钟前

- rust 不是银弹，不能解决所有问题

- 生产不能用 unwarp

65

bclerdx

11 小时 24 分钟前 via Android

@realpg 什么意思？

66

noqwerty

11 小时 24 分钟前 via iPhone

1

@killva4624 跟去年 CrowdStrike 事件如出一辙，说明改配置比改代码危险多了🐶

67

unused

11 小时 22 分钟前

unwarp 一个程序员祭天

68

zzf2019

11 小时 8 分钟前

1

只能说一些人的思想钢印真重，这种损害客户利益的事，竟然还有人洗地，真就是外国的能一样吗？难怪人说程序员是最媚外的群体之一

69

Chengnan049

10 小时 58 分钟前 via Android

@usn 这有啥垄断的，厂商多了，是站点非要用 CF ，还有为所欲为这个词不适用于本情况

70

Chengnan049

10 小时 57 分钟前 via Android

@arloor 什么奇葩逻辑，空气也是免费的，你怎么不说空气垄断？

71

realpg

PRO

10 小时 55 分钟前

@Rainwater #51
可是换成某几家中国厂商围观的非客户都会喷的...

72

Chengnan049

10 小时 55 分钟前 via Android

@realpg 17 不就是么？

73

hellopz

8 小时 27 分钟前

@zzf2019 跟国内国外没关系，跟免费有关系，要真是花钱客户喷几句也合理，一群白嫖的有什么好苛责的，阿里云明天出一个免费产品挂了也有大儒给它讲经

74

KillPaul

8 小时 18 分钟前

@realpg 好小学生的粉红话术，看着都想吐。

75

zhuyao

8 小时 3 分钟前

1

✈️飞一半凭着想象落地的，知道我在说啥吧

76

aloxaf

7 小时 51 分钟前

@hafuhafu #42 并不危险，但写 unwrap 相当于允许这里出问题时直接崩掉 && 这里的错误没有办法处理

问题是 cloudflare 的服务不能崩掉，这里的错误也并非不能处理（当然，马后炮罢了

77

coefu

6 小时 17 分钟前

应该是验证是否是机器人访问的流量管理系统的配置更改出了问题，用于检测是否是机器人访问的机器学习模型的特征数有限制，配置更改导致了模型特征数暴增，而下一步的流量验证被上游这个机器人验证搞阻塞了，导致所有流量都过不去。

78

snow0

6 小时 8 分钟前

"Design for failure."（为失败而设计）
在分布式系统中，永远不要假设输入是完美的，永远不要假设数据库是对的，永远要给代码留一条活路（ Graceful Degradation ），而不是让它直接自杀。

79

zhaoxiaofeng

6 小时 5 分钟前

@usn #18 垄断怪，垄断了吗？张嘴就是批评垄断，属于哭错坟了

80

zzf2019

5 小时 37 分钟前

1

@hellopz 哦 cloudflare 官网那么多企业付费项目到你嘴里就变成免费的了，那么多企业付费然后出现这种情况不该骂吗？那么企业后面又有多少的消费者，这次给普通人带来多大麻烦，骂下怎么了，对个人给你点好处就护上了，这种基本的是非观都没有。国内哪次网站崩了你们这些人不是直接骂企业，什么企业环境畸形，没有技术能力。怎么国外的网站让大半个互联网崩了就不能骂了。真的双面人！

81

hellopz

3 小时 58 分钟前

1

@zzf2019 #80 v 站上骂国产厂商的时候，都是因为付钱了要求云厂商提供 SLA 保障，结果挂了坑了他们，哪次是因为什么免费的产品挂了骂的？ Cloudflare 有那么多收费产品，关键 v 站大部分人也不怎么用啊，大家平常用的是免费功能，挂了对自己的影响也不大，那自然骂的少啊，跟什么国内国外有什么关系，你是不是太自卑了？