代號橙色:小範圍故障防護計畫提升網路韌性

約 2 分鐘閱讀 37 次瀏覽

代號橙色:小範圍故障防護計畫提升網路韌性

日期:2025年12月19日
作者:Dane Knecht

2025年11月18日,Cloudflare的網路經歷了約兩小時十分鐘的重大故障,三週後的12月5日,又出現了影響28%應用程式約25分鐘的中斷。我們已針對這些事件發布詳細的事後報告,但我們知道需要做更多工作以重拾您的信任。今天,我們分享Cloudflare目前進行中的工作細節,以避免類似中斷再次發生。

計畫名稱為「代號橙色:小範圍故障防護」,其目的是使我們的網路更具韌性,能夠抵抗可能導致重大中斷的錯誤或失誤。「代號橙色」意味著此計畫的工作優先於其他所有工作。過去在Cloudflare發生重大事件後,我們曾宣告過「代號橙色」,需要全公司的最高優先處理。我們認為最近的事件需要同樣的關注,以便讓跨部門團隊能夠專注完成任務,暫停其他工作。

計畫的三大方向

  • 控制配置變更:要求對任何傳播至網路的配置變更進行受控的滾動發布,就像我們目前對軟體二進制發布的做法。
  • 強化系統故障模式:審查、改進和測試所有處理網路流量系統的故障模式,以確保在所有條件下(包括意外的錯誤狀態)均表現出明確的行為。
  • 優化緊急程序:更改內部的「破壞玻璃」程序,消除任何循環依賴,以便在事件期間我們和客戶都能迅速行動並無障礙地存取所有系統。

這些項目將在進行中逐步帶來改進,而不是在結束時進行一次性大變革。每次更新都將提高Cloudflare的韌性。最終,我們期望Cloudflare的網路能夠更加堅韌,包括那些引發過去兩個月全球事件的問題。

發生了什麼事?

在第一次事件中,用戶訪問Cloudflare客戶網站時看到錯誤頁面,顯示Cloudflare無法響應他們的請求。在第二次事件中,他們看到空白頁面。

這兩次中斷都遵循類似的模式。在每次事件發生前,我們立即在全球數百個城市的數據中心部署了一次配置變更。

11月的變更是自動更新我們的機器人管理分類器。我們運行多個人工智能模型,從流經我們網路的流量中學習,以構建識別機器人的檢測。我們不斷更新這些系統,以超越試圖避開我們安全保護的惡意行為者,從而抵達客戶網站。

12月事件期間,為了保護我們的客戶免受流行的開源框架React中的漏洞影響,我們部署了一種用於改進我們簽名的安全工具的變更。與新的機器人管理更新的緊迫性類似,我們需要先發制人地阻止試圖利用漏洞的攻擊者。這一變更觸發了事件的開始。

這一模式揭示了我們在Cloudflare部署配置變更與釋放軟體的方式之間存在的嚴重差距。


相關服務

如果您對網路安全及主機服務有需求,北斗數位提供多種解決方案,包括VPS虛擬共享主機DDoS防禦

分享文章
需要主機服務?

專業 DDoS 防禦主機

立即諮詢

相關文章

專業分析:零信任架構實作指南:現代企業資安防護最佳實踐

隨著企業面臨的資安威脅日益複雜,零信任架構成為現代企業資安防護的重要策略。本文深入探討零信任架構的基本概念、實作過程及其在企業資安中的應用,並提供實用建議以幫助...

最新資訊安全趨勢與企業防護策略

在數位化浪潮下,資訊安全成為企業面臨的重要挑戰。本文探討最新的資安趨勢,包括網路安全威脅的演變,並提供企業在技術層面的防護策略,確保數據與系統的安全。從端點防護...

時間:網路安全的全新攻擊面—可信時間同步的重要性

在零信任架構和日益精密的網路威脅時代,時間同步不再僅僅是技術細節,而是網路安全的基石。本次研討會將探討如何利用 Stratum 1 網路時間伺服器進行安全、精確...