事件概述
2025年11月18日11:20(UTC),Cloudflare的網路開始出現重大故障,導致使用者無法正常訪問客戶網站,顯示出內部網路錯誤頁面。這次中斷並非由網路攻擊或惡意活動引起,而是由於我們的資料庫系統權限更改,導致「功能文件」內容異常增長,進而影響網路運行。
問題來源
這次故障起因於我們的資料庫系統中一項權限變更,該變更導致資料庫在功能文件中輸出多重條目,該文件是我們機器人管理系統的關鍵部分。由於文件大小超過預設限制,導致網路中所有機器的流量路由軟體無法正常運行。
解決過程
最初,我們錯誤地懷疑這是由超大規模的DDoS(分散式阻斷服務攻擊)引起的。然而,隨著對問題的深入分析,我們確認了核心問題,並迅速停止了功能文件的異常擴散,改為使用早先版本的文件。到14:30,核心流量已基本恢復正常。我們在接下來幾小時內進一步緩解流量回復帶來的網路負荷,至17:06,所有系統恢復正常運行。
未來措施
這次事件對於我們的團隊來說是非常痛苦的,我們對客戶及整體網路生態系統造成的影響深表歉意。我們將進一步優化系統和流程,以確保未來不會再發生類似中斷事件。
詳細故障分析
下圖顯示了Cloudflare網路中5xx錯誤HTTP狀態碼的數量。正常情況下,這些錯誤數量應非常低,直到故障開始時才出現大幅增長。錯誤的根源在於ClickHouse資料庫集群中查詢不當,導致錯誤配置文件每五分鐘生成一次,並迅速傳播至整個網路。最終,所有ClickHouse節點都生成了錯誤配置文件,系統錯誤狀態穩定下來,直到問題被識別並解決。