Anthropic新AI太保守?連資安研究、癌症問題都被擋 專家批限制過頭
Anthropic最強公開模型上線 安全機制成焦點
AI新創Anthropic日前正式推出Claude Fable 5,這是旗下首款對外開放的 Mythos-class 模型,也是目前公開版本中能力最強的產品之一。不過,新模型上線後,討論焦點卻不是效能提升,而是安全護欄(Guardrails)引發的爭議。多名資安研究人員指出,Claude Fable 5對於資安與生物領域的限制遠比預期嚴格,部分正常研究工作也可能被系統攔截,甚至自動切換到能力較弱的Claude Opus 4.8,引發研究社群不滿。
資安研究也被擋 專家質疑限制範圍過廣
根據TechCrunch報導,Anthropic將Claude Fable 5定位為公開版的 Mythos 模型,並加入大量安全防護措施,目的是降低模型在資安、生物、化學等高風險領域遭到濫用的可能性。不過,多位資安研究員表示,實際使用後發現限制範圍遠超過預期。IBM X-Force紅隊研究員Valentina“Chompie”Palmiotti表示,系統有時連閱讀資安部落格內容都可能觸發限制機制。部分程式碼分析、漏洞研究或安全測試工作,也可能被模型判定為敏感操作,導致無法獲得完整回應。Anthropic表示,一旦系統偵測到涉及受限制領域的請求,Fable 5便會將對話轉交給較早期的Claude Opus 4.8處理,以降低潛在風險。
開發者批評「偷偷降級」 引發透明度爭議
除了資安領域外,Fortune報導指出,部分AI研究人員與開發者對另一項設計表達不滿。有研究人員發現,當使用者進行某些AI研究或模型分析工作時,Claude Fable 5可能在未明確提醒的情況下限制能力,或將請求轉交給較弱版本模型處理。部分開發者因此批評Anthropic採取「秘密限制」做法,認為系統沒有充分揭露何時啟動限制機制,也無法清楚得知模型是否已經切換至其他版本。相關討論迅速在研究社群擴散,不少開發者認為,若模型能力遭到調整,應提供更透明的說明與提示機制。
癌症問題也遭拒答 生物領域限制受關注
Business Insider則發現,Claude Fable 5在生物領域同樣採取高度保守策略。報導指出,部分看似一般的醫學問題,例如癌症相關知識詢問,也可能遭到模型拒絕回答,或被導向Claude Opus 4.8處理。Anthropic解釋,這些限制主要是為了避免模型被用於生物武器研究或其他危險用途,因此在生物相關主題上採取較嚴格的分類標準。公司也坦承,目前的防護措施可能出現「誤判」(false positives)情況,也就是將原本安全、合理的查詢誤認為高風險內容。
Anthropic:超過95%對話不受影響
面對外界質疑,Anthropic表示,目前超過95%的Claude Fable 5對話並不會受到這些限制影響,只有少數涉及資安、生物、化學及模型能力提取(distillation)等領域的請求才會觸發額外防護機制。Anthropic指出,團隊已注意到部分誤判案例,後續將持續調整分類器與安全機制,希望在降低風險與維持可用性之間取得更好的平衡。公司也表示,未來不排除向經過審核的研究機構與科學研究人員開放更多 Mythos-class 能力,但目前尚未公布具體時程。