請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

亞馬遜 AWS 兩週內二度當機!多項服務停擺,浮現雞蛋全放在同個籃子的隱憂

FC未來商務

更新於 2021年12月17日07:06 • 發布於 2021年12月17日04:00 • 孫嘉君

隨著數位化發展逐漸普及,許多企業與政府單位已將服務部署於雲端,不過當雲端基礎建設出了問題,實是牽一髮動全身,影響範圍十分廣大。

亞馬遜雲端服務(Amazon Web Service,AWS)是目前全球雲端服務龍頭,市佔率達 33%,比微軟(20%)與 Google(10%)加起來還要高 ,更是亞馬遜最賺錢的部門,旗下共有 200 多項服務和解決方案,涵蓋運算、儲存、資料庫、機器學習等領域。全球有多個企業與政府單位採用其服務。然而,最近 AWS 短期內在美國發生兩次大規模當機,造成眾多業務與服務停擺。

災難性的大當機事件,各行各業都受到影響

短短兩週內,AWS 已在美國發生兩起大當機事件。先是於 12 月 7 日在美國東部爆發,約 9 個小時後才完全恢復,15 日當機事件又在美國西部再度發生,影響範圍不僅包括亞馬遜自家電商與物流業務,也涵蓋了各行各業的客戶。

這兩起當機事件再次突顯出當前多項經濟活動開始上雲,卻僅依賴少數供應商的問題,一但有所差錯,後果可能甚為嚴峻。

在 12 月 7 日美國東部的大當機事件中,首當其衝的是亞馬遜自家的倉儲與物流業務。根據《Business Insider》報導,在太平洋西北地區的一個亞馬遜倉庫中,當機導致「任何使用電腦的東西」都無法運行,「我們所能做的就是等待,」一名亞馬遜員工說。

與亞馬遜合作的物流企業 West Coast Delivery 表示,美國東海岸的許多司機在當機前裝載了貨車並開始送貨,但在東部時間中午左右出現故障時,他們無法得知送貨路線、也不能掃描包裹,不得不先將車停在路邊。尤其時值年末節慶時期,影響到大量貨物的配送。

而亞馬遜旗下服務包括電商、串流影音 Prime Video、語音助理 Alexa 等,也都因為 AWS 當機暫時無法使用。

不僅是亞馬遜本身,各行各業也遭到波及,如線上券商 Robinhood 的服務被迫暫停;達美航空顧客無法預訂或更改行程;美聯社無法發布新聞報導;線上教學平台 Canvas,以及線上監考功能 Respondus LockDown Browser 服務中斷,讓許多學生的期末考無法順利進行;從社群平台 Facebook 與串流平台 Netflix、Disney+,到智慧家居的 Ring 安全攝影機、iRobot 智慧吸塵器,及自動貓砂盆皆無法使用。

至於 12 月 15 日美西的當機事件,雖不如前次事件嚴重,僅持續了一個多小時,不過根據監測各網站狀況的 Downdetector 資訊指出,包括 Netflix 、團隊通訊軟體 Slack、外送平台 Doordash、Sony 旗下媒體娛樂服務 Playstation Network 皆有用戶回報異常,亞馬遜的電商網站及直播平台 Twitch 似乎也受到了影響。

雲端服務大當機日趨頻繁,或應分散風險

對於 12 月 7 日的當機事件,亞馬遜的報告表示,起因是 AWS 主網路中的自動化容量擴充服務出現錯誤,使內部網路的客戶端和 AWS 主網路之間產生延遲。該錯誤讓亞馬遜團隊無法使用即時監控系統及進行內部控制,而亞馬遜的技術支援中心也運行於 AWS,導致其用戶無法盡快回報問題,種種原因使得該次當機歷時數小時才得以排除。

亞馬遜表示,正在努力改進對當機事件的應對,計劃於明年初發布新版本的服務健康儀表板(Service Health Dashboard),並會推出新的技術支援服務架構,幫助客戶在當機發生時及時收到通知、有效尋求技術支援協助。

近年網路服務當機事件頻傳,由單點故障導致廣泛且長時間的當機,似乎愈來愈普遍。

如雲端供應商 Fastly 於今年 6 月 8 日早上因系統更新失誤,導致英國政府入口網站、金融時報、紐約時報、彭博社、Spotify、Twitter、PayPal 等大型網站,突然接連斷線約一小時,連帶美股期指也一度下跌。

社群平台龍頭 Facebook (現 Meta 集團)亦在今年 10 月,遭遇自 2008 年以來最嚴重的全球大當機,不僅旗下 Facebook、Instagram、WhatsApp 頁面無法使用,以 Facebook 帳號登入的其他應用程式與網站也中斷服務,對許多仰賴社群投放廣告的業者影響巨大。

事實上,此次事件的主角亞馬遜 AWS 在 2020 年 11 月便曾經歷一次當機,當時一項名為 Kinesis 的服務出現問題,導致許多網站癱瘓。今年的大當機波及層面更廣,影響了各種形式和規模的企業。

網路情報公司 Kentik 分析主管 Doug Madory 指出,該公司發現當機時 Netflix 的流量下降了 26%,他認為,沒有理由懷疑當機是由惡意活動所引起,不過最近發生的一系列當機事件反映了現今網路產業變得多麼複雜。「愈來愈多的當機,是自動化和管理集中化的產物,」Doug Madory 說,營運層面的複雜,導致故障與當機難以完全避免,但一旦發生,就會產生非常大的影響。

技術專家與公共數據訪問活動家 Carl Malamud 持相似觀點,他指出,網際網路最初被設計為一個分佈式和去中心化的網絡,旨在遇上大規模災難時得以存續,然而「當我們把所有東西都放在一個地方時,無論是亞馬遜的雲端還是 Facebook ,都違反了這一個基本原則」,他表示:「之前我們看到 Facebook 成為散佈大量錯假資訊的工具,今天我們看到了亞馬遜的失敗。」

全面雲端基礎建設的使用,實是有將雞蛋全放在同個籃子的隱憂,當基礎建設出狀況,會如同骨牌效應讓大量服務中斷。而多雲(multicloud)或為一種解方,例如近日 IPO 的雲端新創 HashiCorp,協助客戶於 AWS、微軟、Google 分散部署資源、跨雲工作,提升彈性和可靠性,避免大量仰賴單一雲端提供商的風險。

資料來源:CNBC(1)ABC NewsBusiness InsiderGuardianTechradarCNBC(2)

延伸閱讀

搶票系統總是癱瘓!專家解析網站流量暴增的管理難題,平息民怨靠這招
遠距辦公恐成駭客攻擊破口!WFH 時代,企業資安部署須採「零信任」原則
程式麻瓜也能加速數位轉型!低程式碼開發工具熱潮再起,沒工程師也能自力開發

查看原始文章

更多科技相關文章

01

微軟遊戲部門人事變動:Phil Spencer 宣布退休,Asha Sharma 接執行長

科技新報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...