聊天機器人能教人做核彈?美國政府與 Anthropic 的核武防線是先進還是多餘
人工智慧新創公司 Anthropic 日前宣布,旗下的聊天機器人 Claude 將不會協助任何使用者製造核子武器,雖然這樣的「宣誓」聽起來似乎有些愚蠢,但對於美國政府來說,核武機密可能透過 AI 外泄,似乎是必須認真對待的事情。
製造核武的科學原理雖然複雜,但若以學術眼光來看,卻早已經是公開的秘密。即便許多先進核武的資訊固然是最高機密,然而核子科學發展至今已有 80 年歷史,例如北韓就向外界清楚證明,有心發展核武的國家根本不需要 AI 聊天機器人的從旁協助。
因此,Anthropic 的「宣誓」就替外界帶來了兩項疑惑。首先,美國政府究竟是如何跟 AI 開發商合作,防止聊天機器人洩露敏感的核武機密?其次,人人都可以存取的 AI 聊天機器人,真的有能力協助民眾製造核武嗎?
對 AI 有擔憂,美國政府找上亞馬遜
對於第一個問題,日前 Anthropic 跟美國政府共同找來了亞馬遜攜手合作,開發出 AI 聊天機器人專用的「過濾器」,希望藉此避免核武機密外洩。
根據外媒說法,隸屬於亞馬遜旗下的 AWS,長期以來都為美國政府提供了「最高機密」等級的雲端服務,例如協助美國國防部儲存各種敏感與機密資訊。
Anthropic 國家安全政策與夥伴關係主管 Marina Favaro 解釋,公司在由 AWS 所提供的最高機密環境中,部署了當下最為先進的 Claude 模型,以便讓美國國家核安全管理局(NNSA),能夠系統性測試 AI 模型是否會產生或加劇核子安全風險。
為聊天機器人開發「核武分類器」
Marina Favaro 說,近來 NNSA 不斷在安全的雲端環境中,對 Claude 進行各種「紅隊演練」,尋找弱點並為政府單位提供回饋。
借助紅隊演練的過程與回饋,Anthropic 與美國政府的核武科學家,共同開發出了一套「核武分類器」(nuclear classifier),即一款針對核子科學相關主題,套用到 AI 聊天機器人身上的精密對話過濾器。
Marina Favaro 進一步指出,Anthropic 利用 NNSA 所制定的「核風險指標」清單做為分類器的基礎,並藉由辨識特定對話主題和技術細節,過濾 AI 聊天中的對話和訊息,確認言論是否偏離到有害領域。
不影響正常言論,防範超前部屬
Anthropic 表示,NNSA 的核風險指標清單雖然受到管制,但並未被列為政府機密,因此讓技術人員和其他 AI 公司有了應用空間。
此外 Marina Favaro 也強調,這套核武分類器經過數月測試及調整,才能夠在攔截可疑對話的同時,不會誤擋關於核能或醫療同位素等核子科學領域的合法討論。
NNSA 副局長 Wendin Smith 認為,AI 深刻改變了國家安全領域,而 NNSA 在放射性及核安全方面的專業知識,使政府能夠超前部署防範潛在風險的工具。
儘管 Anthropic 與 NNSA 都提到了「潛在風險」,但對於 Claude 或其他聊天機器人來說,在製造核武方面 AI 究竟能幫上普通人多少忙,官方說法依然是含糊其辭。
AI 真的能夠散播核武機密嗎?
只不過,透過打造專門的言論過濾器來防止 AI 散播核武機密,真的是有必要的事情嗎?
對此,美國科學家聯盟(FAS)的 AI 專家 Oliver Stephenson 表示,前述擔憂確實應該被認真對待,雖然他認為當前的 AI 模型,在多數情況下仍不足以造成外界恐慌,但人類並不知道五年之後,AI 究竟會發展成什麼樣子,因此保持謹慎總是更好的態度。
另一方面,Oliver Stephenson 也直言關於核武的許多細節,其實都藏在機密的高牆之後,所以外界很難知道,Anthropic 精心打造的分類器,究竟可以發揮多少關鍵作用。
舉例來說,核彈核心周圍的「內爆透鏡」(implosion lenses)就有非常多設計細節,且需要被非常精確的製造才能完美壓縮核心,引發高當量的爆炸;而 AI 能夠在這類問題發揮作用的地方,大概就只有協助整合來自不同物理學說的論文,以及蒐集核武相關出版品中的資訊。
Oliver Stephenson 強調,人工智慧公司在談論核武安全問題時,應該要提出更加具體的說法,詳細說明他們真正擔心的「風險」是什麼,不是只把「核武」兩個字蓋在最上面。
更像宣傳手法,並未打擊痛點
人工智慧研究機構 AI Now Institute 的首席 AI 科學家 Heidy Khlaaf,更是大力批評 Anthropic「宣誓」強調 Claude 無法協助普通人製造核武,Anthropic 只是在作秀。
擁有核能安全背景的 Heidy Khlaaf 指出,像 Claude 這類的大型語言模型,其能力完全取決於訓練資料的內容,假如 Claude 從一開始就沒有接觸過核武機密,即使再加上分類器、過濾器,也根本不會有任何實質作用。
Heidy Khlaaf 說,假設 NNSA 所測試的 AI 模型,其訓練集本來就不包含敏感的核武資料,那麼無論進行再多次測試,結果都不能證明美國政府的擔憂得到了解決;然而,透過這種模稜兩可的結果,加上普遍被熟知的核武常識去建立一套「風險指標」分類器,看起來並沒有打擊到痛點。
Heidy Khlaaf 接著補充,日前 Anthropic 的「宣誓」感覺更像是一種宣傳手法,助長了外界對於 AI 聊天機器人「不存在能力」的猜測,即 Claude 將在沒有進一步限制的情況下,突然湧現出提供核武機密資料的能力,這跟現有的科學事實完全不符。
對此 Anthropic 反擊,公司許多關於安全工作的重點,就是主動建立能識別未來風險並加以緩解的系統,核武分類器就是一項例子。
當私營 AI 公司碰上政府機密
除此之外,抱持強烈反對立場的 Heidy Khlaaf 也對美國政府與私營 AI 公司的合作感到擔憂,尤其像 Anthropic 這類 AI 開發商,由於渴望獲得大量訓練資料,配合美國政府擁抱 AI 的熱潮,反而為產業開啟了更多取得機密資料的機會。
Heidy Khlaaf 嚴肅表示,無論是軍事系統、核武器,甚至是更單純的核能,人民真的想看見幾乎不受監管的私營企業,直接取得極敏感的國家安全資料嗎?
Heidy Khlaaf 亦提及了精確度的問題,指出核武科技涉及大量精密科學,然而大型語言模型由於其運作原理,在面對最基本的數學運算時,都可能出現嚴重差錯,假如聊天機器人「算錯了」核武相關的數學任務,而人類又沒有再次檢查時,未來將會發生什麼事?
讓普通人跟核武劃清界線
在 Anthropic 與美國政府的表態中,唯一值得稱讚之處,或許在於雙方都有意隔出「普通人」跟「核武製造」之間的距離,藉此劃出安全界線,Anthropic 甚至願意將精心開發的核武分類器,共享給其他有需要的 AI 公司。
Anthropic 國家安全政策與夥伴關係主管 Marina Favaro 指出,理想情況下核武分類器或許會成為自願性的行業標準,因為它只需要一點點技術投資,就能在敏感的國家安全領域中,有意義的降低風險。
【推薦閱讀】
◆ 員工將公司機密貼到 ChatGPT 了,「影子 AI」正撕開企業資安破口
◆ 從「每個人都能改」到「只有 AI 能寫」,馬斯克的 Grokipedia 讓知識生產更快也更危險
◆ 【追蹤關稅神器】AI 管報關、算關稅、抓錯誤!Flexport 推出跨境貿易全能工具
*本文開放合作夥伴轉載,參考資料:《Wired》、《Anthropic》,首圖來源:Unsplash
(責任編輯:鄒家彥)