蘋果研究：古老生產力技巧同樣有益於 LLM 訓練

蘋果研究團隊最新發表的一項研究指出，大型語言模型（LLM）在檢查自身工作時，若導入檢查清單式的回饋機制，能顯著提升表現。這項研究不僅挑戰了傳統強化學習方法的主流做法，也為未來 AI 助手的可靠性開啟新方向。

早先在 LLM 完成訓練後，研究人員通常會透過「來自人類回饋的強化學習」（Reinforcement Learning from Human Feedback，RLHF）進一步提升模型品質。這種方式仰賴人工標註者對模型回覆給予正向或負向評價，讓模型逐步學會何種答案最能獲得肯定。然而 RLHF 仍存在被模型「投機取巧」的風險，例如產生表面正確卻未真正解決問題的輸出。

在這份研究中，蘋果團隊提出一種名為「來自檢查清單回饋的強化學習」（Reinforcement Learning from Checklist Feedback，RLCF）的新方法。研究人員設計出一套由具體項目組成的檢查清單，並以 0–100 分制衡量回應的符合程度。與其他對齊技術相比，RLCF 是唯一在五個主要基準測試中皆有進步的方法，例如在 FollowBench 提升 4 個百分點、在 InFoBench 提升 6 個百分點、在 Arena-Hard 勝率提升 3 個百分點。

這種提升對於 AI 助手特別重要。研究指出，隨著越來越多人將語言模型整合進日常任務，使用者期望這些助手能準確執行多步驟的複雜指令。當模型在「指令跟隨」上表現更好，用戶信任感便能提升，進而將更多高難度需求交給 AI 處理。

值得注意的是，檢查清單本身也不是人工逐條編制，而是由另一個大型模型生成。蘋果研究人員基於既有方法，創建了涵蓋 13 萬條指令的「WildChecklists」資料集，並透過多個不同規模的 Qwen2.5 模型產生候選回應，再由更大型的教師模型逐項打分，最後將分數作為學生模型微調的獎勵信號。

研究顯示，當檢查清單生成與評分系統設計完善時，模型在某些基準測試中的表現可提升高達 8.2%。不僅如此，RLCF 在多項測試中也優於其他替代方法，進一步證實這項機制的有效性。

不過研究團隊也坦言此方法仍有限制，RLCF 主要針對「複雜指令的跟隨」場景，對於其他應用領域不一定適用；此外，方法仰賴更強大的模型作為「裁判」去調整較小的模型，也意味著需要額外的計算資源。更重要的是，RLCF 並未針對「安全對齊」設計，因此不能解決所有風險問題。

即便如此，蘋果的研究仍提出了一種新穎而簡單的改進方式，為語言模型在實用性與可靠性上的提升提供了新思路。隨著未來 AI 助手逐漸具備自主決策與代理能力，如何精準執行複雜指令將成為人機互動的核心，而檢查清單式回饋有望成為其中的關鍵工具。

（首圖來源：Image by Freepik）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

工班搶不贏科技廠　皇普董座自嘲「小媳婦」認：暫緩開工

尹衍樑離世　潤泰千金發聲曝他「最放不下的」：謝謝您努力活過

36歲女靠零股賺進百萬！網大讚「教科書等級」　她卻慌張：想全賣了

台股午盤翻黑大跳水跌逾200點　台積電漲5元

台股老先覺1／2次解定存買台積電　杜金龍笑：稅單收入比女兒年薪高

台灣不只台積電！謝金河點名「這2檔」：世界級大山　鴻海見不到車尾燈

請更新您的瀏覽器啟用Javascript

蘋果研究：古老生產力技巧同樣有益於 LLM 訓練

科技新報

更多理財相關文章

工班搶不贏科技廠 皇普董座自嘲「小媳婦」認：暫緩開工

尹衍樑離世 潤泰千金發聲曝他「最放不下的」：謝謝您努力活過

36歲女靠零股賺進百萬！網大讚「教科書等級」 她卻慌張：想全賣了

台股午盤翻黑大跳水跌逾200點 台積電漲5元

台股老先覺1／2次解定存買台積電 杜金龍笑：稅單收入比女兒年薪高

台灣不只台積電！謝金河點名「這2檔」：世界級大山 鴻海見不到車尾燈