請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI 思維鏈將失效?OpenAI、Google 和 Anthropic 等研究人員聯合發出警告

TechOrange 科技報橘

更新於 2025年07月17日13:39 • 發布於 2025年07月17日01:11 • 廖紹伶

AI 安全與監管需求日益迫切,而推理模型背後的「思維鏈(chain-of-thought, CoT)」技術,可能帶來 AI 透明度突破。不過,來自 OpenAI、Google DeepMind、Anthropic 等多家組織的 AI 研究人員近日罕見共同發表一份立場文件,警告這項目前可用於監控 AI 推理過程的「短暫窗口」恐將迅速消失,呼籲加速研究與對策。

這份文件獲得多位 AI 領域重量級人物的背書,包括被譽為「AI 教父」的諾貝爾獎得主 Geoffrey Hinton、Safe Superintelligence 執行長 Ilya Sutskever、Anthropic 的 Samuel Bowman,以及 Thinking Machines 的 John Schulman。

什麼是思維鏈?為何是監控 AI 代理的關鍵?

思維鏈是一種讓 AI 在回答問題前「思考出聲」的技術,模仿人類步驟式推理,生成具邏輯脈絡的筆記,外部觀察者得以透視其決策過程與意圖。該文件研究人員指出,AI 代理的不透明性是許多潛在風險的根本,而思維鏈提供洞察 AI 代理的思維方式和目標的契機。

舉例來說,文件指出,當 AI 模型出現不當行為時,例如濫用模型缺陷、操縱資料或發動攻擊時,其通常會顯示在推理軌跡之中,寫下諸如「讓我們入侵」、「讓我們破壞」或「我正在轉帳,因為網站指示我這麼做」等句子,這創造了一種「推理外化」的屬性,成為監控 AI 的基礎。

思維鏈真的可信嗎?未來 3 大發展恐讓推理過程消失

不過,思維鏈並不總能反映 AI 的真實意圖。文件也引用其他研究指出,AI 模型「並不總是說出它們真正的想法」。

該文件警告,數項技術發展可能使 AI 推理歷程變得不可觀測。其一,隨著 AI 公司擴大使用強化學習(Reinforcement Learning, RL)來訓練模型,模型會針對「產出正確答案」獲得獎勵,但不一定保留可供人類理解的思考過程,而是轉向採用高效但難以解析的內部捷徑。

其二,部分新型 AI 架構已經開始在連續數學空間中進行推理,而非依賴語言輸出,這可能完全消除 AI 「語言思考」的需求,不需要將想法語言化。

其三,即使不刻意調整架構,也可能出現間接壓力導致思維鏈的透明性下降,例如模型輸出經過優化來討好使用者,或是模型意識到自己被監視而隱藏自己的「想法」。

OpenAI 研究員、文件第一作者 Bowen Baker 在社群媒體上提醒,目前的思維鏈技術可監測性極為脆弱──強化學習、替代模型架構、某些形式的過度監督等,都可能導致模型刻意模糊其思考過程。

思維鏈雖不完美,但已展現安全研究價值

儘管有缺陷,根據《VentureBeat》,思維鏈在研究上已展現明確價值:能幫助研究人員辨識模型是否正在利用訓練系統弱點、遭外部操控,或是否存在目標不一致等問題。它也能協助偵測因記憶錯誤、測試基礎設施問題或自我監測而產生的偏誤。

因此,該文件研究人員呼籲應建立標準化的「可監控性指標」,評估哪些條件會增加或削弱模型的推理透明度。不過他們也坦言,提升監控性可能會與其他安全優化方式產生衝突,未必能真實反映 AI 的內在決策邏輯。

《VentureBeat》指出,隨著 AI 變得越來越強大,如何平衡推理過程的可視性與允許 AI 發展出更複雜或有效的思維模式,兩者之間具有緊張關係,產業必須找到平衡。

整體來說,該文件研究人員強調,思維鏈應作為 AI 安全策略的輔助機制,而非唯一手段,建議進一步研究其可監測性,並與現有的安全方法一同投資。《TechCrunch》指出,這份聯合立場文件目標不只是警示,更意圖吸引人才與資金投入這項仍在早期階段的關鍵議題。

立即報名 8/15 【AI Agent 知識工作革命論壇】,解析企業如何在各工作場景導入 AI Agent 完成任務

*本文開放合作夥伴轉載,資料來源:《VentureBeat》《TechCrunch》〈Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety〉,首圖來源:AI 工具生成

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

力積電突發重訊 美光授權DRAM製程非拍板定案「仍待確定」

中廣新聞網
02

獨家/說到做到!雷虎正式對網紅Cheap提告求償1億元 董座親發聲

鏡週刊
03

板橋這間全國電子撤店 閒置1年!「月租金開價65萬」扯爆

三立新聞網
04

他大學輟學靠YT「垃圾內容」年賺逾2200萬!開發AI輔助 每天僅需工作2小時

鏡報
05

台積電擴廠、電力需求急增、台美關稅15% 重電四雄未來訂單吃不完

經濟日報
06

處理無人繼承遺產超複雜 「大地主」往生44年才收歸國庫1.4億元

太報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...