在过去的两个半季度中,我们进行了密集的工程工作,内部代号为“Code Orange: Fail Small”,专注于使Cloudflare的基础设施对每个客户都更具弹性、安全性和可靠性。本月早些时候, Cloudflare团队完成了这项工作。
虽然提高韧性永远不会是“完成的工作”,也永远是我们发展生命周期的首要任务,但我们现在已经完成了本可以避免2025年11月18日和2025年12月5日全球停电的工作。这项工作侧重于几个关键领域:更安全的配置更改,减少故障的影响,以及修改我们的“打破玻璃”程序和事件管理。
我们还推出了措施,以防止随着时间的推移出现漂移和回归,并加强了在停电期间与客户的沟通方式。在这里,我们将详细说明我们发货的内容,以及这对您意味着什么。对您的意义:在大多数情况下, Cloudflare内部配置更改不再立即到达我们的网络,而是通过实时健康监控逐步推出。
这使我们的可观察性工具能够在问题影响您的流量之前捕捉问题并恢复问题。为了在潜在的危险部署到达生产之前捕获它们,我们已经确定了高风险配置管道,并构建了新的工具来更好地管理配置更改。
对于在我们的网络上运行并处理客户流量并接收配置更改的产品,我们不再通过网络即时部署这些更改。相反,相关团队采用了“健康介导的部署”方法,与我们在发布软件时使用的方法相同,适用于所有配置部署。这包括但不限于直接受事件影响的产品团队。