Cloudflare 在 7 月 2 日晚上出現大規模故障,網上曾一度認為是大型黑客攻擊。不過 Cloudflare 很快便澄清不是這原因,而是因為 Cloudflare 內部的軟件更新出現設定錯誤所引發。
由於 Cloudfare 會定期更新 Web Application Firewall 的規則,從而應對不同的網絡攻擊。一般情況下,Cloudflare 也會先作模擬測試,確定沒有問題才會套用在真實環境。
然而,當天 Cloudflare 沒有作充足的模擬測試下將新規則套用在全球系統,結果因為一些配置上的錯誤,導致所有伺服器的 CPU 使用率衝上 100%,所以才出現 502 Error。
最終,Cloudflare 用了 20 分鐘時間找出問題,先將 Web Application Firewall 暫停,然後再回復。