这种贴一半的文不知道居心是什么
https://gist.github.com/doggy8088/e70c10648957210eb7dba9e2702f99f8
这篇是cloudflare完整的说明的翻译
里面有写到为什么他们会认为是ddos
除了很像(这些引导流量的机器人服务时好时坏)以外
还遇到一个完全在公司架构外的网页也碰巧挂掉
所以一开始以为是最近的aisusu攻击
结果又是一个小地方导致出错
大家都知道机器人是依靠特征档来机器学习跟识别
他们的架构是有一个查询排程每5分钟一次依据特征代码去查询他们的数据库,再将查询到的资料打包成档案发送给各个机器人
而大型数据库架构上都会有查询、储存、副本等不同的类型,而他使用的仅有“default”数据库
但今天就是他调整了数据库权限导致他的查询语法一查下去,多了一个版本(r0数据库)变成两倍大,全部打包成档案
本来到这边只有影响效能
但他们效能设定的严谨性很高
也就是说可以使用的特征数量是有限制的,甚至会为他们预先配置内存以达到最小消耗效能
于是处理档案的机器人就崩溃了,直接导致核心代理失效
也就是说CDN失效、不能将user导到网页/服务上
软件故障一笔带过蛮瞎的
公司在调整权限管理的时候这种地方真的太细节了
数据库都隐藏了结果语法可以查出来
大概也没预期会如此大规模
所以改善方式也只能加强系统效能耗尽跟核心代理失效的备援的方向以防再发
是说原文推文图又进化了…
https://i.imgur.com/ojtPmWE.jpeg
※ 引述《windowhihi (こいしprpr)》之铭言:
: https://www.newmobilelife.com/2025/11/19/cloudflare-outage-error/
: Cloudflare:昨日网络大规模中断原因是档案更新出错
: 昨日,网络出现大规模中断,许多网站和服务的效能也因此降低。Cloudflare 随后表示
: ,最初以为是遭受大规模网络攻击,但后来发现问题是由软件更新中的“严重”错误所致
: 。
: Cloudflare 表示,最初观察到的模式是连线每隔约五分钟就会离线,然后恢复,接着再
: 次离线。这种模式让公司认为他们遭受了超大规模 DDoS 攻击,因为技术错误通常不会自
: 行修复。
: Cloudflare 后来发现,问题出在机器人管理系统使用的档案更新出错。问题的触发原因
: 是数据库系统权限的变更,导致数据库将多个条目输出到机器人管理系统使用的“特征档
: 案”中。该特征档案的容量随之增加了一倍。大于预期的特征档案随后传播到构成网络的
: 所有机器上。这些机器上执行的软件会读取此特征档案,以使机器人管理系统及时了解不
: 断变化的威胁。该软件对特征档案的大小有限制,低于其翻倍后的大小,导致软件发生故
: 障。
: