2025年11月18日Cloudflare網路中斷事件詳情

約 1 分鐘閱讀 54 次瀏覽

事件概述

2025年11月18日11:20(UTC),Cloudflare的網路開始出現重大故障,導致使用者無法正常訪問客戶網站,顯示出內部網路錯誤頁面。這次中斷並非由網路攻擊或惡意活動引起,而是由於我們的資料庫系統權限更改,導致「功能文件」內容異常增長,進而影響網路運行。

問題來源

這次故障起因於我們的資料庫系統中一項權限變更,該變更導致資料庫在功能文件中輸出多重條目,該文件是我們機器人管理系統的關鍵部分。由於文件大小超過預設限制,導致網路中所有機器的流量路由軟體無法正常運行。

解決過程

最初,我們錯誤地懷疑這是由超大規模的DDoS(分散式阻斷服務攻擊)引起的。然而,隨著對問題的深入分析,我們確認了核心問題,並迅速停止了功能文件的異常擴散,改為使用早先版本的文件。到14:30,核心流量已基本恢復正常。我們在接下來幾小時內進一步緩解流量回復帶來的網路負荷,至17:06,所有系統恢復正常運行。

未來措施

這次事件對於我們的團隊來說是非常痛苦的,我們對客戶及整體網路生態系統造成的影響深表歉意。我們將進一步優化系統和流程,以確保未來不會再發生類似中斷事件。

詳細故障分析

下圖顯示了Cloudflare網路中5xx錯誤HTTP狀態碼的數量。正常情況下,這些錯誤數量應非常低,直到故障開始時才出現大幅增長。錯誤的根源在於ClickHouse資料庫集群中查詢不當,導致錯誤配置文件每五分鐘生成一次,並迅速傳播至整個網路。最終,所有ClickHouse節點都生成了錯誤配置文件,系統錯誤狀態穩定下來,直到問題被識別並解決。

分享文章
需要主機服務?

專業 DDoS 防禦主機

立即諮詢

相關文章

專業分析:零信任架構實作指南:現代企業資安防護最佳實踐

隨著企業面臨的資安威脅日益複雜,零信任架構成為現代企業資安防護的重要策略。本文深入探討零信任架構的基本概念、實作過程及其在企業資安中的應用,並提供實用建議以幫助...

最新資訊安全趨勢與企業防護策略

在數位化浪潮下,資訊安全成為企業面臨的重要挑戰。本文探討最新的資安趨勢,包括網路安全威脅的演變,並提供企業在技術層面的防護策略,確保數據與系統的安全。從端點防護...

時間:網路安全的全新攻擊面—可信時間同步的重要性

在零信任架構和日益精密的網路威脅時代,時間同步不再僅僅是技術細節,而是網路安全的基石。本次研討會將探討如何利用 Stratum 1 網路時間伺服器進行安全、精確...