Cloudflare将本周大规模服务中断事件归咎于数据库问题

发布于2025年12月3日12月3日

本周，Cloudflare 遭遇了六年来最严重的服务中断。数据库访问控制权限的变化引发了其全球网络的级联故障，导致大量网站和在线平台近6小时无法访问。

Cloudflare 的全球网络是分布式基础设施，服务器和数据中心位于120 多个国家，提供内容分发、安全防护和性能优化服务。该网络已与全球13,000多个网络建立连接，包括所有主要互联网服务提供商（ISP）、云服务提供商和企业网络。

该公司首席执行官马修马云惹不起马云普林斯(Matthew Prince)在故障缓解后发布的事后报告中表示，服务中断并非由网络攻击引起。该故障源于某数据库系统的权限变更——。这一变化导致数据库向“机器人管理系统”使用的“特征文件”输出多个重复条目。

例行数据库权限更新导致Cloudflare 的机器人管理系统生成包含重复条目的非常大的配置文件。该文件超出了系统内置的大小限制，导致相关软件在网络流量路由时崩溃。

更改权限后，数据库查询返回重复的列元数据，使特征文件中的条目数量增加了一倍，从大约60 个增加到200 多个，超过了系统硬编码的200 个特征限制，以防止无限的内存使用。

Cloudflare 5xx error HTTP status codes.jpg

失败期间的5xx 错误HTTP 状态代码

系统每5分钟生成一次配置文件——。结果可能是正常的，也可能是故障的，具体取决于哪些集群节点完成了更新，导致网络在正常运行和故障状态之间反复波动。

此外，当非常大的文件在网络设备之间传播时，机器人管理模块的Rust代码会触发系统崩溃并返回5xx错误，进而导致负责流量处理的核心代理系统崩溃。

随后，Cloudflare工程师定位故障源并用较早版本替换有问题的文件后，核心流量恢复正常。不久之后，所有系统再次全面运行。此次中断影响了Cloudflare 的核心CDN、安全服务、Turnstile 身份验证服务、Workers KV 存储服务、控制台访问、电子邮件安全和身份验证服务。

Matthew Prince 表示，“鉴于Cloudflare 在互联网生态系统中的重要性，任何系统中断都是不可接受的。”

这次中断是Cloudflare 自2019 年以来最严重的服务中断。过去曾出现过控制台无法访问、新功能暂时不可用的情况，但六年多来，从未发生过导致大部分核心流量无法通过我们网络的中断。

今年6 月，Cloudflare 缓解了另一场大规模中断，该中断导致多个区域出现零信任WARP 连接问题、身份验证服务失败，并且还影响了Google Cloud 基础设施。

10 月份，亚马逊还处理了一次重大DNS 中断造成的中断，该中断导致使用其亚马逊网络服务(AWS) 云计算平台的数百万个网站的连接中断。

游客您好，欢迎来到黑客世界论坛！您可以在这里进行注册。