|  |      1Ketteiron      8 天前 一句话总结:DynamoDB 自动化系统因潜在竞态条件导致删除了自己的 DNS 记录。 感觉各种重大事故都是因为自我删除或者自我重启失败。 | 
|  |      2mytsing520 PRO 越是底层的故障,影响越大;越是影响大的故障,往往故障原因越简单 | 
|  |      3kevan      8 天前 所以还是互不干涉吧 | 
|      4ypcs03      8 天前 via iPhone 还好没有互相依赖,要是 DDB 的恢复依赖 EC2 的 instance launch 就搞笑了 | 
|      5yedkk      7 天前 看下来全在大事化小,第一段一大半还搁这吹他的“seamless scale, fault isolation and recovery, low latency, and locality”。 我都笑死了,被其中一个服务的 DNS server 的 race 干崩了 60 个服务,IAM 都 down 了,他怎么还好意思吹自己 “This automation has been designed for resilience, allowing the service to recover from a wide variety of operational issues.” 不愧是含印量最高的大厂。 | 
|      6yedkk      7 天前 印度人毁了波音,毁了微软,现在又伸手去搞 AWS 了,等苹果换个印度 CEO 不清楚站里还有多少人粉苹果的。 | 
|  |      7xiaket      6 天前 顺着这个分享一下当时处理故障的时候的一个小插曲. 当时 AWS 的 TAM 有说如果特别 critical 的话, 可以通过 IP 去连接这个服务, 仍然是有效的. 不过被我们这边否定了, 因为 DDB 是一个 shard 非常非常多的服务. 每台能承载的请求有限. 我们如果把服务换成某个固定的 IP 或者某几个固定的 IP, 指不定后面还有没有什么其他幺蛾子出现. |