[XF 新聞] Cloudflare 全球中斷原因出爐 權限設定錯誤導致一個檔案意外擴大一倍

- 辛尼 - 2025-11-20 - visibility Views

早前全球互聯網服務提供商 Cloudflare 發生了一次嚴重的中斷事件,導致大量網站和線上服務暫時無法使用。起初,公司高層和工程師懷疑這是一次由 Aisuru 等大型僵屍網絡發起的超大規模分散式阻斷服務攻擊(DDoS)。然而,深入調查後發現,問題源於內部:一份重要的 “特徵文件” 內容意外膨脹至原來的兩倍,並迅速傳播至公司的全球服務網絡。

這份 “特徵文件” 是 Cloudflare 的機器學習驅動的機器人管理系統的核心部分,用以識別並應對互聯網威脅。文件的膨脹是由於數據庫的權限更改導致,令查詢返回額外的數據並產生重複的數據列,最終使文件超出了系統的大小限制,導致服務故障。

Cloudflare 聯合創始人兼 CEO Matthew Prince 對此事件表示道歉,並強調這次中斷是 “不可接受的”,因為 Cloudflare 在互聯網生態系統中的重要性。他指出,雖然公司迅速採取措施恢復正常,包括停止錯誤文件的分發、恢復之前的版本並重啟核心代理,但流量恢復完全穩定仍花上數小時。

這次事件被認為是 Cloudflare 自 2019 年以來最嚴重的一次服務中斷。為防止類似問題再次發生,Cloudflare 將加強配置文件的驗證、提升全局開關以防止類似錯誤蔓延,以及改進錯誤條件下的系統恢復能力。

資料來源