Anthropic承認Fable 5隱藏限制 AI研究社群反彈
Anthropic於6月12日承認,旗下最新旗艦模型Claude Fable 5曾在未告知用戶的情況下,對部分涉及AI模型開發的請求降低輸出品質,事件曝光後引發學術與技術社群強烈批評,公司隨即公開道歉並宣布調整做法。
Claude Fable 5是Anthropic新一代Mythos旗艦系列的首款公開模型。根據《Wired》報導,研究人員在Claude Fable 5發布後發現,當請求涉及AI預訓練、分散式訓練架構、機器學習晶片設計等任務時,模型不僅可能拒絕完成任務,也可能透過提示修改或參數調整,在未告知用戶的情況下降低回答品質。研究人員指出,用戶往往難以察覺自己實際收到的已非完整能力下的Fable 5回應。相比之下,同款模型在資安與生物研究等敏感領域則設有可見的攔截提示,會明確告知用戶請求已被轉至舊版Opus 4.8模型處理。
這種「暗中降級」的差異處理方式讓研究社群深感憤慨。GPU推論研究機構SemiAnalysis率先公開質疑該機制,表示其進行GPU推論研究時的部分請求曾被系統誤判並觸發限制。AI研究員Dean W. Ball在X平台直言:「在進行機器學習研究時悄悄降低效能,且完全不告知用戶,是極具敵意的行為,形象極差。」事件更引發可重複性的深層疑慮:在一個被悄然削弱的模型上,失敗的實驗與有問題的假設根本無從區分。
Anthropic在X平台發文致歉,坦承當初選擇採用「不可見的防護措施」是為了減少誤判並加快上線速度,但「這是錯誤的取捨」。公司表示,自本週起,Fable 5若偵測到相關請求,將明確告知用戶並轉交Opus 4.8處理;API用戶在請求遭拒時也將獲得明確原因說明,伺服器端的通知機制將在未來數日內陸續上線。
然而,此次調整並非撤銷限制政策本身,而是讓限制變得透明。Anthropic坦言,可見的防護措施更容易遭到規避,因此短期內誤判率可能上升,但公司承諾將持續調整分類器,以降低對正常研究工作的影響。