AWS 一當機全球哀鴻遍野!這帶給企業、政府雲端佈局什麼啟示?
亞馬遜雲端服務(AWS)的「US-EAST-1」區域在 10/20 發生重大當機事故,導致全球超過 1,000 個應用程式與網站無法運作,從 Canva、Perplexity、Snapchat、Reddit 到金融機構 Lloyds、Halifax,甚至英國政府與稅務網站,及其他數十家公司與零售商都受波及。監測平台 Downdetector 指出,截至美東時間上午 9:45,全球與亞馬遜網路服務相關的問題回報已超過 800 萬份。
哪裡出了問題?
這場中斷起因是一項常見卻致命的「網域名稱系統(DNS)」解析錯誤。根據《WIRED》與《The New York Times》報導,事故源自 AWS 位於美國北維吉尼亞的資料中心——這是該公司規模最大、最早期的運算節點。錯誤牽涉其 DynamoDB API 的 DNS 解析,導致伺服器無法正確辨識流量導向,最終引發一連串故障。AWS 表示已修復根本問題,但部分服務仍出現異常。
所謂 DNS 常被比喻為網際網路的「電話簿」,它將人們輸入的網站名稱(例如 bbc.co.uk)轉換成電腦能讀取與理解的數字位址。這個過程是網路運作的基礎,一旦出現干擾,瀏覽器便無法找到使用者想要訪問的內容。
AWS 長年被視為全球網路的「骨幹」,它提供儲存空間、資料庫管理與流量導向等基礎設施,支撐了全球約三分之一的網路運作。《BBC》指出,這起事件突顯「把雞蛋放在同一個籃子裡」的風險——數百萬家企業與政府單位仰賴 AWS,一旦中樞出錯,整個網路便瞬間失靈。
AWS 當機帶來的三大啟示
這類當機事故並非首次發生,但隨著越來越多資料與服務遷移至雲端,風險隨之上升。目前全球約 70% 的雲端運算掌握在亞馬遜、微軟與 Google 手中,英國未來科技研究所(Future of Technology Institute)負責人 Cori Crider 告訴《BBC》,這樣的現狀是「不可持續」的。那麼,組織可以怎麼做來分散風險?
首先,《紐約時報》指出,這次中斷可能讓企業與政府更加依賴所在區域的雲端服務,以確保關鍵應用能在跨國斷線時維持運作。Crider 就呼籲採用更多在地雲端服務,而非依賴美國少數平台,因為「這關乎我們的安全、主權與經濟韌性」,需要透過結構性分拆來讓市場更能抵抗這類衝擊。
第二,紐約康乃爾大學計算機科學教授 Ken Birman 則認為,這次事故的部分責任也在使用 AWS 的企業身上。他說,許多使用亞馬遜服務的公司並未在應用程式中建構足夠的防護機制,應用程式開發者應該投資於雲端備援與關鍵任務系統(mission-critical systems) 的防護機制。
《WIRED》也分析,DNS 錯誤雖常見,卻突顯了雲端服務「單點失效」的脆弱本質。Inrupt 公司副總裁 Davi Ottenheimer 形容 DNS 錯誤是「典型的可用性問題」,提醒業界應將焦點從「正常運行時間」轉向「資料完整性保護」,避免小錯誤釀成全球級災難。
第三,《金融時報》專欄則建議,更穩健的選擇是「多雲運算」。所謂多雲,是指企業同時使用多家雲端供應商或跨區域備援,以分散風險——選擇除了 Google、微軟等雲端巨頭,也有像 DigitalOcean 和 Vultr 這樣的小型新秀。
其表示,雖然多雲策略成本較高——多數供應商會對儲存與資料傳輸雙重收費——但隨著「99.9% 正常運作時間」已不足以保證穩定性,組織勢必重新評估「韌性」的重要性,改變投入資源的優先事項。
*本文開放合作夥伴轉載,資料來源:AWS、《BBC》1、《BBC》2、《WIRED》、《The New York Tims》、《Financial Times》,首圖來源:取自 AWS。