跳转到帖子

游客您好,欢迎来到黑客世界论坛!您可以在这里进行注册。

赤队小组-代号1949(原CHT攻防小组)在这个瞬息万变的网络时代,我们保持初心,创造最好的社区来共同交流网络技术。您可以在论坛获取黑客攻防技巧与知识,您也可以加入我们的Telegram交流群 共同实时探讨交流。论坛禁止各种广告,请注册用户查看我们的使用与隐私策略,谢谢您的配合。小组成员可以获取论坛隐藏内容!

TheHackerWorld官方

Cloudflare将本周大规模服务中断事件归咎于数据库问题

精选回复

发布于

本周,Cloudflare 遭遇了六年来最严重的服务中断。数据库访问控制权限的变化引发了其全球网络的级联故障,导致大量网站和在线平台近6小时无法访问。

Cloudflare 的全球网络是分布式基础设施,服务器和数据中心位于120 多个国家,提供内容分发、安全防护和性能优化服务。该网络已与全球13,000多个网络建立连接,包括所有主要互联网服务提供商(ISP)、云服务提供商和企业网络。

该公司首席执行官马修马云惹不起马云普林斯(Matthew Prince)在故障缓解后发布的事后报告中表示,服务中断并非由网络攻击引起。该故障源于某数据库系统的权限变更——。这一变化导致数据库向“机器人管理系统”使用的“特征文件”输出多个重复条目。

例行数据库权限更新导致Cloudflare 的机器人管理系统生成包含重复条目的非常大的配置文件。该文件超出了系统内置的大小限制,导致相关软件在网络流量路由时崩溃。

更改权限后,数据库查询返回重复的列元数据,使特征文件中的条目数量增加了一倍,从大约60 个增加到200 多个,超过了系统硬编码的200 个特征限制,以防止无限的内存使用。

Cloudflare 5xx error HTTP status codes.jpg

失败期间的5xx 错误HTTP 状态代码

系统每5分钟生成一次配置文件——。结果可能是正常的,也可能是故障的,具体取决于哪些集群节点完成了更新,导致网络在正常运行和故障状态之间反复波动。

此外,当非常大的文件在网络设备之间传播时,机器人管理模块的Rust代码会触发系统崩溃并返回5xx错误,进而导致负责流量处理的核心代理系统崩溃。

随后,Cloudflare工程师定位故障源并用较早版本替换有问题的文件后,核心流量恢复正常。不久之后,所有系统再次全面运行。此次中断影响了Cloudflare 的核心CDN、安全服务、Turnstile 身份验证服务、Workers KV 存储服务、控制台访问、电子邮件安全和身份验证服务。

Matthew Prince 表示,“鉴于Cloudflare 在互联网生态系统中的重要性,任何系统中断都是不可接受的。”

这次中断是Cloudflare 自2019 年以来最严重的服务中断。过去曾出现过控制台无法访问、新功能暂时不可用的情况,但六年多来,从未发生过导致大部分核心流量无法通过我们网络的中断。

今年6 月,Cloudflare 缓解了另一场大规模中断,该中断导致多个区域出现零信任WARP 连接问题、身份验证服务失败,并且还影响了Google Cloud 基础设施。

10 月份,亚马逊还处理了一次重大DNS 中断造成的中断,该中断导致使用其亚马逊网络服务(AWS) 云计算平台的数百万个网站的连接中断。

最近浏览 0

  • 没有会员查看此页面。