自家 AI 編碼工具釀災,AWS 近期至少兩次服務中斷
亞馬遜雲端運算服務(Amazon Web Services,AWS)傳涉及自家 AI 工具的錯誤,至少發生過 2 次服務中斷,導致部分員工對於公司力推 AI 工具的計畫產生疑慮。
《金融時報》引述 4 名知情人士消息指出,AWS 去年 12 月中旬曾發生長達 13 小時的服務中斷,原因是工程師允許 Kiro 進行某些變更,這款代理式 AI 工具當下判定最佳做法是「刪除並重新建立環境」。
AWS 去年 7 月推出的 Kiro,是具備代理功能的 AI IDE(Integrated Development Environment,整合開發環境),協助開發者完成從概念發想到實際生產部署整個流程。
多名亞馬遜員工則向《金融時報》表示,這是近幾個月以來亞馬遜的 AI 工具第二次成為服務中斷事件的核心原因。「我們在過去幾個月內至少發生 2 次生產環境中斷。工程師讓 AI 代理自行解決問題,沒有進行任何干預。中斷規模雖然不大,但其實完全可以預見」,一名 AWS 資深員工表示。
對此,亞馬遜表示,AI 工具牽涉其中純屬巧合,並稱「相同問題也可能發生在任何開發工具或人為操作上」。
「這 2 起事件中,都是使用者錯誤,而非 AI 錯誤。」亞馬遜補充說,沒有證據顯示使用 AI 工具出錯機率更高。
亞馬遜表示,去年 12 月的事件是「範圍極為有限的事件」,僅影響中國部分地區的一項單一服務,第二起事件則未影響任何面向客戶的 AWS 服務。亞馬遜補充,在 12 月的事件後,AWS 實施多項安全防護措施,包括強制同儕審查與員工培訓。
值得一提的是,這 2 次服務中斷的嚴重程度遠遠不及 2025 年 10 月發生的 15 小時 AWS 大規模故障,包括 OpenAI 的 ChatGPT 在內,當時迫使多家客戶的應用程式與網站中斷提供服務。
亞馬遜員工表示,公司將 AI 工具視為操作者的延伸,並賦予相同權限。這 2 起事件,相關工程師在進行變更前,未像平時那樣取得第二人批准。
Kiro 預設會在採取任何行動前要求授權,但亞馬遜指出 12 月事件中的工程師擁有比預期更多的權限,「這是使用者存取控制問題,而非 AI 自主性問題」。
部分亞馬遜員工則表示,有鑑於發生錯誤的風險,他們仍對 AI 工具在大多數工作中的實用性持懷疑態度。亞馬遜已設定目標,要求 80% 開發人員每週至少一次使用 AI 進行編碼任務,並密切追蹤使用情況。
AWS 致力於打造與部署 AI 工具,包括可根據人類指示自主採取行動的 AI 代理。與其他大型科技公司一樣,AWS 當然希望將這類技術銷售給外部客戶。然而這些事件凸顯出,這些仍屬初期階段的 AI 工具可能存在異常行為並干擾服務正常運作的風險。
(首圖來源:Flickr/Web Summit CC BY 2.0)