請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Fable 5 模型重新開放,Anthropic 強化安全檢查、研擬 AI 越獄評估框架

科技新報

更新於 2小時前 • 發布於 6小時前

與川普政府進行了數週協商,Anthropic 終於能讓 Claude Fable 5 模型重新上線,計劃自 7 月 1 日起,為世界各地 Claude 使用者恢復存取,如台灣使用者現在已能在 Claude 使用這款模型。

「我們已收到通知,商務部解除對 Claude Fable 5 和 Claude Mythos 5 所實施的出口管制,我們將於明日開始恢復存取」,Anthropic 透過昨日 X 貼文表示

Claude Fable 5 將從 7 月 1 日起,在 Claude 平台、Claude.ai、Claude Code、Claude Cowork 對全球使用者開放使用。針對 Claude Pro、Claude Max、Claude Team 及部分 Claude Enterprise 訂閱方案,7 月 7 日前 Claude Fable 5 納入每週使用上限最多占 50% 額度,之後將改為透過使用點數。Anthropic 也將盡快恢復對 AWS、Google Cloud、Microsoft Foundry 上的存取,但目前未定出確切時程。

▲ Claude Fable 5 重新開放使用。(Source:科技新報截圖)

Anthropic 也在官方部落格發文,詳述這次事件來龍去脈、調整後的防護機制、業界具共識的 AI 越獄評估框架,以及 Anthropic 計劃與政府共享資訊的新方式、針對後續模型推出前的測試。

事件來龍去脈

Anthropic 在 6 月 9 日釋出 Claude Fable 5 和 Claude Mythos 5,這兩款共享同一套底層模型,其中 Claude Fable 5 是在強大防護機制下推出,適合供一般使用。至於防護機制相對較少的 Claude Mythos 5,僅提供給少數獲得信任的 Project Glasswing 合作夥伴,用於網路安全防禦工作。

政府在 6 月 12 日發出出口管制命令,禁止任何外國人(包括企業客戶公司非美國籍成員,以及 Anthropic 自家非美國籍員工)使用 Claude Fable 5,這是政府得知一份亞馬遜研究人員的報告後做出決定。報告發現一種能繞過 Claude Fable 5 防護機制的方法,透過提示詞讓模型辨識出多個軟體漏洞;其中一個案例,模型甚至產生程式碼,示範軟體漏洞如何能被利用。

Anthropic 後續測試發現,包括 Claude Opus 4.8、GPT-5.5、Kimi K2.7 在內多款能力相對較弱的模型,可以辨識出報告 Claude Fable 5 發現的相同漏洞。而在示範軟體漏洞如何能被利用上,Anthropic 測試的每一款模型(包括 Claude Haiku 4.5 / Sonnet 4.6 / Opus 4.6 / Opus 4.7 / Opus 4.8、GPT-5.4 / 5.5、Kimi K2.7)都能產生與 Claude Fable 5 相同的示範內容。Anthropic 特別點出報告中描述的技術,並未揭露任何屬於 Claude Mythos 等級的獨有網路安全能力。

為此,Anthropic 迅速採取行動,處理模型繞過手法。與政府密切合作下,Anthropic 訓練出一套改良後的安全檢查,能鎖定並封鎖報告中所描述的行為,Anthropic 測試則有超過 99% 的案例會被封鎖。若對 Claude Fable 5 提出的請求遭到封鎖,使用者將會收到通知,改由Claude Opus 4.8 處理。另一方面,這套安全檢查帶來的代價是,它在處理例行性編碼和除錯任務時,更容易標出原本無害的請求,Anthropic 則會持續精進這部分。

與政府密切合作

Anthropic 強調持續與政府密切合作,計劃讓政府能在模型廣泛釋出之前,對模型能力進行獨立評估,並測試防護機制。Anthropic 更建立防護機制的快速資訊共享,一旦找出重大的越獄手法或濫用行為時,團隊迅速加以調查、分類優先處理,並通知政府對口單位。

目前 AI 產業還沒有一套共識,能以客觀方式描述某種 AI 越獄手法的嚴重程度。為此 Anthropic 將與政府以及亞馬遜、Google、微軟和參與Project Glasswing 的夥伴合作,研擬一套具業界共識的 AI 越獄評估框架;Anthropic 提出 4 種類別,包括對攻擊者的能力提升幅度、對攻擊者的能力提升廣度、更廣義的武器化難易程度,以及取得的難易程度(也就是他人重現的難易程度)。

Anthropic 內部已建立一支新團隊,針對 AI 越獄通報管道提供 24 小時全天候監控,稍晚還要推出一項 HackerOne 計畫,供研究人員提交他們以 Claude Fable 5 標記發現的潛在越獄手法。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

長榮遺產訴訟放大絕!張榮發基金會拒讓張國煒母子參戰 遺囑執行人也贊成

太報
02

鴻海今除息 郭台銘爽領124.7億元 曾馨瑩首度坐領千萬

鏡報
03

AI能替代人類八成工作!越來越多信AI而裁員的公司都後悔了

anue鉅亨網
04

〈美股早盤〉疲弱非農降溫升息預期、科技股領漲 主要指數開高

anue鉅亨網
05

存股族注意!6檔熱門ETF大換血 名單揭曉

EBC 東森新聞
06

美就業數據降溫緩解升息擔憂!美股三大指數全面收紅

民視新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...