從資料對齊到記憶體管理:打造真正可用的 LLM,韓國 Motif 模型給企業的四大啟示
過去幾年,AI 模型的競爭幾乎被簡化成一件事:參數誰比較大。
但韓國的 Motif Technologies 最近丟出的一個結果,讓這個邏輯開始站不住腳。
這家韓國新創推出的開源模型 Motif-2-12.7B-Reasoning,參數規模不大,卻在多項以推理為主的測試中交出亮眼成績。這不代表小模型全面勝出,而是清楚點出一件事:推理能力不只跟模型變大有關,更跟訓練方式有關。
比起跑分本身,更值得看的是 Motif 同步公開的白皮書,內容具體說明他們怎麼設計資料、怎麼處理長上下文、避免強化學習把模型練壞。這些資訊對企業或研究團隊來說,等同回答了一個更實際的問題:推理能力到底是怎麼被訓練出來的。
推理能力如何被「刻意訓練」出來?
在白皮書內,Motif 不僅主動公開了 AI 模型具體且可被複製的訓練方法,更揭露了提高 AI 模型推理能力的實際理由,並點出企業內部開發大型語言模型(LLM)時,各種常犯的關鍵錯誤。
對於想要建立或微調自家 AI 模型的企業來說,Motif 的白皮書給予外界 4 大關鍵方向,包括來自資料對齊、基礎架構與訓練穩定性的各種關鍵教訓。
啟示一:資料分布比參數規模更重要
首先,Motif 強調合成推理資料(Synthetic Reasoning Data)唯有在結構符合目標模型的推理風格時,才真正具備提升 AI 模型推理能力的效果。
根據 Motif 的研究,他們發現如果在監督式微調 AI 模型的過程中,使用跟模型「不對盤」的推理步驟,也就是「目標模型」跟「教師模型」之間的推理路徑差異太大,那麼即便訓練資料的品質看起來很高,但實際上卻會損害任務執行,比方說程式碼撰寫等工作的實際表現。
對於企業 AI 團隊來說,這提醒了開發者不應該始終將頂尖模型所生成的「思維鏈(CoT)」資料,直接大量倒進去自家模型進行訓練,就認為最終可以得到理想中的訓練效果。
換句話說,企業 AI 團隊應該主動驗證合成資料的格式、詳細程度和步驟,究竟是否符合自家模型發起推論時的需求,內部的評估驗證絕對比單純複製外部資料集來得更加重要。
啟示二:長上下文訓練首重基礎架構
其次,Motif 發現對 AI 模型進行長上下文(Long-context)訓練時,基礎架構的好壞將會大幅影響最終成果。
根據白皮書,Motif-2-12.7B-Reasoning 模型使用了 64K 的上下文規模發起訓練,並同時依靠混合平行運算、精細的切分策略,配合更積極的檢查點技術,才成功於 Nvidia H100 算力等級的硬體上,使長上下文訓練成為可能。
Motif 的實踐過程提醒了企業 AI 開發者,模型的長上下文能力,並無法在後期才「附掛」上去。
尤其若是組織 AI 應用的核心業務,將會涉及大量資料檢索或代理應用,那企業就必須從一開始就把長上下文納入訓練架構設計,否則後續將面臨昂貴的重新訓練,或者微調後 AI 模型不穩定的相關風險。
啟示三:強化學習微調必須篩選資料
再者,Motif 對旗下 AI 模型採用「難度感知篩選」的強化學習流程,強調只保留通過率在特定範圍內的任務,而不是無差別擴大獎勵訓練。
Motif 的方案解決了許多企業 AI 團隊在實驗強化學習(RL)時的痛點,即效能倒退、模式崩塌,或 AI 模型僅在評測跑分時有進步,但實際應用卻無效。
透過重複利用路徑和擴大裁剪範圍,Motif 選擇犧牲理論純粹性,換取 AI 模型訓練的穩定性。
Motif 所採行的訓練方法,反映出「強化學習」這件事其實是系統性問題,並非只關乎獎勵模型;若缺乏謹慎的資料篩選、重複利用策略和多工平衡,強化學習很容易搞砸原本已經可以穩定上線的 AI 模型。
啟示四:想要進階訓練先最佳化記憶體
最後,Motif 透過核心層級的最佳化,減輕 AI 模型在強化學習過程中所帶來的記憶體壓力,這件事也凸顯了企業 AI 團隊經常陷入的盲點,那就是訓練 AI 模型所遭遇的瓶頸,往往都卡在記憶體,而非系統的整體運算能力。
換句話說,像損失函數(Loss function)層級的最佳化技術,往往會決定 AI 模型是否能夠朝下一階段繼續訓練。
尤其對於在共享運算叢集,或者受監管環境下運作的組織、企業而言,Motif 的經驗傳達出投資底層工程最佳化的必要性,無法單純只是實驗模型架構。
韓國 AI 生態轉變,嚴謹訓練更可靠
分析 Motif 所發表的白皮書,外界不難發現 Motif-2-12.7B-Reasoning 模型所帶來的價值,不只是其能夠與美國、中國的 AI 模型,在推理能力方面互相爭鬥、匹敵,至少在 Motif 這個案例中,可以看到一種不同於「堆參數」的訓練路線正在被實際驗證。
當然,對於企業 AI 團隊來說,Motif 的白皮書清晰展現了該公司,究竟是如何讓 AI 模型達成品質、效能上的飛躍,同時證明了優異的 AI 推理能力,必須得靠嚴謹的訓練設計得來,而非單純仰賴擴大模型參數規模。
Motif-2-12.7B-Reasoning 模型的開發經驗,為想要自建專屬大型語言模型的企業,帶來了十分務實的教訓,那就是請儘早投資於資料對齊、基礎設施和訓練穩定性,否則企業未來恐將花費數百萬元代價,單純只為了微調模型,最後仍只能得到完全無法於實際生產環境中執行,難以發起可靠推理的半成品。
【推薦閱讀】
◆ 你的 AI 專案為何失敗?摩根大通的啟示:沒有「連接性」的模型,只是一場昂貴的浪費
◆ 【中國 AI 上市潮全面啟動】晶片自給與模型競賽下,全面攤開從新創到巨頭的 GPU、模型與算力布局
◆ AI 專案胎死腹中?4 面向分析:你的「組織體質」可能不適合你的 AI 策略
*本文開放合作夥伴轉載,參考資料:《VentureBeat》、《arXiv》,首圖來源:Nano Banana Pro
(責任編輯:鄒家彥)