請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

蘋果研究:古老生產力技巧同樣有益於 LLM 訓練

科技新報

更新於 2025年08月26日10:07 • 發布於 2025年08月26日10:07

蘋果研究團隊最新發表的一項研究指出,大型語言模型(LLM)在檢查自身工作時,若導入檢查清單式的回饋機制,能顯著提升表現。這項研究不僅挑戰了傳統強化學習方法的主流做法,也為未來 AI 助手的可靠性開啟新方向。

早先在 LLM 完成訓練後,研究人員通常會透過「來自人類回饋的強化學習」(Reinforcement Learning from Human Feedback,RLHF)進一步提升模型品質。這種方式仰賴人工標註者對模型回覆給予正向或負向評價,讓模型逐步學會何種答案最能獲得肯定。然而 RLHF 仍存在被模型「投機取巧」的風險,例如產生表面正確卻未真正解決問題的輸出。

在這份研究中,蘋果團隊提出一種名為「來自檢查清單回饋的強化學習」(Reinforcement Learning from Checklist Feedback,RLCF)的新方法。研究人員設計出一套由具體項目組成的檢查清單,並以 0–100 分制衡量回應的符合程度。與其他對齊技術相比,RLCF 是唯一在五個主要基準測試中皆有進步的方法,例如在 FollowBench 提升 4 個百分點、在 InFoBench 提升 6 個百分點、在 Arena-Hard 勝率提升 3 個百分點。

這種提升對於 AI 助手特別重要。研究指出,隨著越來越多人將語言模型整合進日常任務,使用者期望這些助手能準確執行多步驟的複雜指令。當模型在「指令跟隨」上表現更好,用戶信任感便能提升,進而將更多高難度需求交給 AI 處理。

值得注意的是,檢查清單本身也不是人工逐條編制,而是由另一個大型模型生成。蘋果研究人員基於既有方法,創建了涵蓋 13 萬條指令的「WildChecklists」資料集,並透過多個不同規模的 Qwen2.5 模型產生候選回應,再由更大型的教師模型逐項打分,最後將分數作為學生模型微調的獎勵信號。

研究顯示,當檢查清單生成與評分系統設計完善時,模型在某些基準測試中的表現可提升高達 8.2%。不僅如此,RLCF 在多項測試中也優於其他替代方法,進一步證實這項機制的有效性。

不過研究團隊也坦言此方法仍有限制,RLCF 主要針對「複雜指令的跟隨」場景,對於其他應用領域不一定適用;此外,方法仰賴更強大的模型作為「裁判」去調整較小的模型,也意味著需要額外的計算資源。更重要的是,RLCF 並未針對「安全對齊」設計,因此不能解決所有風險問題。

即便如此,蘋果的研究仍提出了一種新穎而簡單的改進方式,為語言模型在實用性與可靠性上的提升提供了新思路。隨著未來 AI 助手逐漸具備自主決策與代理能力,如何精準執行複雜指令將成為人機互動的核心,而檢查清單式回饋有望成為其中的關鍵工具。

(首圖來源:Image by Freepik

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

春節瘋出國1/請4天休16!日韓線擠爆、歐美加逆勢崛起 旅遊業看旺Q1營收

CTWANT
02

財神把月老按在地板摩擦!台南男脫單前每天買1股台積電 611天驚人損益曝光

鏡週刊
03

台股強彈站穩35K!被問崩盤怎麼辦 專家:抱2檔ETF跌到1萬點也不怕

CTWANT
04

2025營收41億掉至5億! 高雄豪宅王:從業35年最寒冬

ETtoday新聞雲
05

中鋼47年來首見虧損 擬每股配0.15元股息創新低

中央通訊社
06

台股首檔萬金股現身 信驊飆漲衝上10275元改寫史上最高股價紀錄

anue鉅亨網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...