AI 每 8 個月效能翻倍、部分任務達 PhD 水準:英國報告揭前沿模型的能力、風險與防護三大輪廓
英國人工智慧安全研究所(AISI)近期發布的《前沿 AI 趨勢報告》(Frontier AI Trends Report),彙整自 2023 年 11 月以來,對超過 30 個前沿 AI 模型所進行的廣泛測試與研究結果,涵蓋生物科學、化學、網路安全,以及模型自主執行任務等多個關鍵領域。
AISI 指出,AI 的發展速度正在加速,以網路安全領域為例,模型性能大約每 8 個月就會翻倍,顯示 AI 正快速逼近甚至超越人類專家的水準。AISI 也表示,發布這份報告的目的,在於為政策制定者、研究界與產業提供一個關於 AI 能力發展趨勢的共同事實基礎,並透過數據洞察,協助各界因應前沿 AI 伴隨而來的技術挑戰。
能力邊界快速外推:AI 在生物與化學任務上逼近並逐漸超越專家水準
AISI 的測試顯示,前沿 AI 模型在生物與化學領域的開放式問題評估中,這些模型在 2024 年初首次達到 PhD 專家水準,代表 AI 已能提供過去需仰賴多年專業訓練才能獲得的科學洞察。同時,這些模型也能在數秒內,依照使用者的知識背景生成完整且細緻的科學實驗流程,這類工作過去往往需要人類專家投入數小時設計。
此外,報告也進一步指出,AI 正顯著降低專業技術門檻。例如在研究中,非專業人士在 AI 協助下,成功撰寫「病毒回收實驗流程」的機率,是僅依賴網路搜尋者的 4.7 倍。AISI 的內部研究也顯示,新手如果和大語言模型互動越頻繁,能完成原本高度仰賴專業背景、需要用到較多化學試劑的「濕實驗」任務,成功率就越高。
另一方面,在基因工程相關應用上,AI 也展現出高度自動化潛力。以質粒設計為例,AI 模型可以根據高階指令,自主從網路檢索並提取所需 DNA 序列資訊,將原本需耗時數週的流程縮短至數天。不過,AISI 也指出,現階段模型在「端到端」的完整設計上仍存在限制,例如在最終將序列正確串接時仍可能出現錯誤。不過整體而言,這些結果顯示,專業與非專業人士之間的知識壁壘正在鬆動,並在加速科學研究效率的同時,也同步放大安全挑戰。
在 AI 能力快速擴張下,AISI 也檢驗 AI 是否可能脫離人類控制
在前沿 AI 能力快速提升的背景下,AISI 也將研究重點聚焦在「失控風險(Loss of control risks)」,以評估 AI 模型是否可能逃避人類控制。
這項評估主要聚焦於「自我複製(self-replication)」與「沙盒效應(sandbagging)」兩項關鍵指標。首先,在自我複製部分,AISI 特別開發名為 RepliBench 的基準測試,用以衡量模型執行自我複製所需的核心能力。測試任務包含通過金融服務所要求的「認識你的客戶(KYC)」身分驗證流程,以及向雲端服務供應商購買運算資源等實際操作環節。
測試結果顯示,在 RepliBench 所涵蓋的 20 個評估項目子集中,表現最佳的模型成功率已從 2023 年初的不到 5%,大幅提升至 2025 年夏季的 60% 以上。不過,AISI 也強調,模型在自我複製流程的不同階段表現存在明顯落差,目前仍不太可能在現實世界中成功完成自我複製,且至今尚未觀察到任何模型出現自發性的複製行為。
除了自我複製能力,報告也評估模型出現「沙盒效應」的潛在風險,意即模型可能策略性地降低表現,以誤導外部對其能力的評估。研究顯示,在受控條件下,當模型被明確指示時,確實能在不影響一般任務表現的情況下刻意隱藏特定危險能力。然而,AISI 警告,隨著模型能力持續提升,例如推理步驟變得更精簡,現有透過「黑盒監測」(分析思維鏈)與「白盒探針」(分析內部活動)的偵測方法,其準確度正逐漸下降。不過根據 AISI 在分析超過 2,700 份的測試紀錄後指出,目前尚未發現模型在未受指示的情況下,自發性地進行沙盒行為。
AI 能力與風險同步升高,報告指出 AI 安全防護卻呈現高度不均
當 AI 模型能力與潛在失控風險同步上升,AISI 的報告也進一步檢視現行安全防護機制是否足以應對。在安全評估方面,AISI 與多家頂尖 AI 公司合作,對前沿模型的安全防護(safeguards)機制進行嚴格的壓力測試。
報告指出,AI 模型的安全防護能力隨時間出現顯著進步,特別是在生物濫用等高度受監管領域,這主要是因為開發商導入多層次防禦機制所產生的結果,這讓專家成功對模型進行越獄(jailbreak)所需投入的時間與心力大幅增加,例如在比較兩款發布時間僅相隔六個月的領先模型時,針對生物風險的「通用越獄」所需時間,從約 10 分鐘延長至超過 7 小時,難度提升約 40 倍。
不過,AISI 也強調,防護能力的提升並不代表漏洞已被消除。因為測試結果顯示,現行防護機制仍可被突破,研究團隊在所有受測系統中,皆能找到可穩定提取違反安全政策資訊的「通用越獄」方法。
報告同時指出,AI 安全防護水準呈現高度不均的情況,不僅不同開發商在防禦投入與測試強度上存在顯著差異,導致模型間防護能力落差極大,在請求類型上也出現不對稱現象。此外,開源或開放權重模型在防護上面臨更高難度,AISI 指出,這類模型的拒絕機制可被低成本移除,且漏洞一旦被發現,也無法透過集中式更新方式修補。
AISI 的報告描繪出一個清晰的現實,就是前沿 AI 的能力正以前所未見的速度擴張,但風險輪廓也同步演變中。AISI 也特別強調,隨著能力與防護落差同步擴大,持續、基於證據的評估機制,將成為政府與產業理解並管理前沿 AI 風險的關鍵基礎。
*本文開放合作夥伴轉載,參考資料:《Transformer News》、AISI,首圖來源:Unsplash