請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI 每 8 個月效能翻倍、部分任務達 PhD 水準:英國報告揭前沿模型的能力、風險與防護三大輪廓

TechOrange 科技報橘

更新於 2025年12月19日19:38 • 發布於 2025年12月19日11:38 • 李昀蔚

英國人工智慧安全研究所(AISI)近期發布的《前沿 AI 趨勢報告》(Frontier AI Trends Report),彙整自 2023 年 11 月以來,對超過 30 個前沿 AI 模型所進行的廣泛測試與研究結果,涵蓋生物科學、化學、網路安全,以及模型自主執行任務等多個關鍵領域。

AISI 指出,AI 的發展速度正在加速,以網路安全領域為例,模型性能大約每 8 個月就會翻倍,顯示 AI 正快速逼近甚至超越人類專家的水準。AISI 也表示,發布這份報告的目的,在於為政策制定者、研究界與產業提供一個關於 AI 能力發展趨勢的共同事實基礎,並透過數據洞察,協助各界因應前沿 AI 伴隨而來的技術挑戰。

能力邊界快速外推:AI 在生物與化學任務上逼近並逐漸超越專家水準

AISI 的測試顯示,前沿 AI 模型在生物與化學領域的開放式問題評估中,這些模型在 2024 年初首次達到 PhD 專家水準,代表 AI 已能提供過去需仰賴多年專業訓練才能獲得的科學洞察。同時,這些模型也能在數秒內,依照使用者的知識背景生成完整且細緻的科學實驗流程,這類工作過去往往需要人類專家投入數小時設計。

此外,報告也進一步指出,AI 正顯著降低專業技術門檻。例如在研究中,非專業人士在 AI 協助下,成功撰寫「病毒回收實驗流程」的機率,是僅依賴網路搜尋者的 4.7 倍。AISI 的內部研究也顯示,新手如果和大語言模型互動越頻繁,能完成原本高度仰賴專業背景、需要用到較多化學試劑的「濕實驗」任務,成功率就越高。

另一方面,在基因工程相關應用上,AI 也展現出高度自動化潛力。以質粒設計為例,AI 模型可以根據高階指令,自主從網路檢索並提取所需 DNA 序列資訊,將原本需耗時數週的流程縮短至數天。不過,AISI 也指出,現階段模型在「端到端」的完整設計上仍存在限制,例如在最終將序列正確串接時仍可能出現錯誤。不過整體而言,這些結果顯示,專業與非專業人士之間的知識壁壘正在鬆動,並在加速科學研究效率的同時,也同步放大安全挑戰。

在 AI 能力快速擴張下,AISI 也檢驗 AI 是否可能脫離人類控制

在前沿 AI 能力快速提升的背景下,AISI 也將研究重點聚焦在「失控風險(Loss of control risks)」,以評估 AI 模型是否可能逃避人類控制。

這項評估主要聚焦於「自我複製(self-replication)」與「沙盒效應(sandbagging)」兩項關鍵指標。首先,在自我複製部分,AISI 特別開發名為 RepliBench 的基準測試,用以衡量模型執行自我複製所需的核心能力。測試任務包含通過金融服務所要求的「認識你的客戶(KYC)」身分驗證流程,以及向雲端服務供應商購買運算資源等實際操作環節。

測試結果顯示,在 RepliBench 所涵蓋的 20 個評估項目子集中,表現最佳的模型成功率已從 2023 年初的不到 5%,大幅提升至 2025 年夏季的 60% 以上。不過,AISI 也強調,模型在自我複製流程的不同階段表現存在明顯落差,目前仍不太可能在現實世界中成功完成自我複製,且至今尚未觀察到任何模型出現自發性的複製行為。

除了自我複製能力,報告也評估模型出現「沙盒效應」的潛在風險,意即模型可能策略性地降低表現,以誤導外部對其能力的評估。研究顯示,在受控條件下,當模型被明確指示時,確實能在不影響一般任務表現的情況下刻意隱藏特定危險能力。然而,AISI 警告,隨著模型能力持續提升,例如推理步驟變得更精簡,現有透過「黑盒監測」(分析思維鏈)與「白盒探針」(分析內部活動)的偵測方法,其準確度正逐漸下降。不過根據 AISI 在分析超過 2,700 份的測試紀錄後指出,目前尚未發現模型在未受指示的情況下,自發性地進行沙盒行為。

AI 能力與風險同步升高,報告指出 AI 安全防護卻呈現高度不均

當 AI 模型能力與潛在失控風險同步上升,AISI 的報告也進一步檢視現行安全防護機制是否足以應對。在安全評估方面,AISI 與多家頂尖 AI 公司合作,對前沿模型的安全防護(safeguards)機制進行嚴格的壓力測試。

報告指出,AI 模型的安全防護能力隨時間出現顯著進步,特別是在生物濫用等高度受監管領域,這主要是因為開發商導入多層次防禦機制所產生的結果,這讓專家成功對模型進行越獄(jailbreak)所需投入的時間與心力大幅增加,例如在比較兩款發布時間僅相隔六個月的領先模型時,針對生物風險的「通用越獄」所需時間,從約 10 分鐘延長至超過 7 小時,難度提升約 40 倍。

不過,AISI 也強調,防護能力的提升並不代表漏洞已被消除。因為測試結果顯示,現行防護機制仍可被突破,研究團隊在所有受測系統中,皆能找到可穩定提取違反安全政策資訊的「通用越獄」方法。

報告同時指出,AI 安全防護水準呈現高度不均的情況,不僅不同開發商在防禦投入與測試強度上存在顯著差異,導致模型間防護能力落差極大,在請求類型上也出現不對稱現象。此外,開源或開放權重模型在防護上面臨更高難度,AISI 指出,這類模型的拒絕機制可被低成本移除,且漏洞一旦被發現,也無法透過集中式更新方式修補。

AISI 的報告描繪出一個清晰的現實,就是前沿 AI 的能力正以前所未見的速度擴張,但風險輪廓也同步演變中。AISI 也特別強調,隨著能力與防護落差同步擴大,持續、基於證據的評估機制,將成為政府與產業理解並管理前沿 AI 風險的關鍵基礎。

*本文開放合作夥伴轉載,參考資料:《Transformer News》AISI,首圖來源:Unsplash

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

AI搶飯碗!美媒點名「最可能消失」7種工作

NOWNEWS今日新聞
02

你在淘汰名單上嗎?到2030年最可能消失的7種職業1次看

自由電子報
03

年薪破300萬!黃仁勳點未來搶手「3職業」成金飯碗:寫程式不是唯一出路

三立新聞網
04

「定期定額台積電」竟1股都沒買到 投資新手揭背後真相!全網朝聖:謝謝提醒

鏡週刊
05

她退休11年總花費只有314萬!居無定所走到哪、玩到哪、住到哪,壯遊世界把旅行當生活

幸福熟齡 X 今周刊
06

賣藍莓先看台灣!外媒曝市場的秘密

自由電子報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...