楊立昆對了?從生成式到理解式 小模型性能直追大型AI
在人工智慧產業持續追逐更大模型與更高算力之際,一條不同於主流的技術路線正逐漸受到關注。被譽為「深度學習三巨頭」之一、Meta 首席 AI 科學家楊立昆(Yann LeCun)近期提出的新研究,再次挑戰生成式 AI 以規模取勝的發展方向。
楊立昆長期主張,當前主流生成式 AI 透過預測下一個詞或像素來運作,本質上效率低落,模型更偏向記憶統計規律,而非真正理解現實世界。他提出的替代架構「聯合嵌入預測架構」(JEPA)試圖讓 AI 在壓縮後的抽象表徵空間中進行預測,而非逐像素生成,藉此學習更接近物理世界運作的內在結構。
然而,JEPA 過去面臨「表徵崩塌」問題,即模型為降低計算負擔,過度簡化輸入資訊,導致不同物體在模型內部表徵趨於一致,失去辨識能力。為解決此問題,過去研究需引入凍結編碼器、指數移動平均等多種工程補丁,增加系統複雜度與計算成本。
根據楊立昆最新發布於 arXiv 的論文,其團隊提出名為 LeWorldModel 的新模型,透過一項稱為 SIGReg 的數學正則化方法,要求模型內部表徵符合高斯分布,從根本上抑制表徵崩塌。該方法使模型訓練可直接端到端進行,並將原本多達 6 至 7 個的超參數大幅簡化至接近單一參數(λ約為 0.1)。
在效能與成本方面,該模型展現顯著突破。LeWorldModel 僅約 1500 萬參數,可在單張 GPU 上於數小時內完成訓練,無需額外獎勵信號,僅依賴帶有動作標註的離線影像資料。相較之下,目前主流大型模型動輒數百億甚至上兆參數,訓練成本高達數十億美元。
實驗結果顯示,在機器人控制任務中,包括推動方塊、機械臂操作、雙房間導航與三維抓取等場景,LeWorldModel 的表現可與更大型模型相當甚至超越,同時在規劃速度上快約 48 倍,完整規劃時間從 47 秒縮短至約 1 秒。其關鍵在於將每一幀影像壓縮為 192 維隱向量,使 token 數量減少約 200 倍。
此外,該模型的內部表徵具備可解釋性。研究人員透過線性探針即可讀取物體位置、速度等物理資訊,並能辨識違反物理規律的異常事件,例如物體瞬間位移。
儘管成果引發關注,論文亦指出限制,包括目前僅支援約 5 步的短期規劃、僅在模擬環境驗證,尚未部署於真實機器人系統,以及在低維度簡單場景中,高斯先驗可能影響表現。
業界對此方向的興趣正在升溫。近年 AI 競爭焦點多集中於如 Alphabet(GOOGL-US) 與 OpenAI 等公司推動的大型語言模型,而 Anthropic 亦持續推出高性能生成式模型。另一方面,Tesla(TSLA-US) 執行長馬斯克近期亦對該研究表達興趣,顯示產業對替代路線的關注正在增加。
分析指出,若此類小型世界模型能在真實環境中驗證成功,將可能大幅改變 AI 產業的成本結構與發展方向,特別是在機器人與具身智能領域。相較於過去依賴巨型模型與資料中心的發展模式,小型高效率模型可能成為下一階段突破關鍵。
整體而言,楊立昆提出的路線並非否定生成式 AI,而是補充另一種更貼近物理世界理解的技術途徑。在產業已投入數千億美元發展大型模型的背景下,低成本且具可解釋性的世界模型,正逐步成為 AI 發展的重要分支。
更多鉅亨報導