楊立昆對了？從生成式到理解式小模型性能直追大型AI

圖：Pixabay/Unsplash/Pexel

在人工智慧產業持續追逐更大模型與更高算力之際，一條不同於主流的技術路線正逐漸受到關注。被譽為「深度學習三巨頭」之一、Meta 首席 AI 科學家楊立昆（Yann LeCun）近期提出的新研究，再次挑戰生成式 AI 以規模取勝的發展方向。

楊立昆長期主張，當前主流生成式 AI 透過預測下一個詞或像素來運作，本質上效率低落，模型更偏向記憶統計規律，而非真正理解現實世界。他提出的替代架構「聯合嵌入預測架構」（JEPA）試圖讓 AI 在壓縮後的抽象表徵空間中進行預測，而非逐像素生成，藉此學習更接近物理世界運作的內在結構。

然而，JEPA 過去面臨「表徵崩塌」問題，即模型為降低計算負擔，過度簡化輸入資訊，導致不同物體在模型內部表徵趨於一致，失去辨識能力。為解決此問題，過去研究需引入凍結編碼器、指數移動平均等多種工程補丁，增加系統複雜度與計算成本。

根據楊立昆最新發布於 arXiv 的論文，其團隊提出名為 LeWorldModel 的新模型，透過一項稱為 SIGReg 的數學正則化方法，要求模型內部表徵符合高斯分布，從根本上抑制表徵崩塌。該方法使模型訓練可直接端到端進行，並將原本多達 6 至 7 個的超參數大幅簡化至接近單一參數（λ約為 0.1）。

在效能與成本方面，該模型展現顯著突破。LeWorldModel 僅約 1500 萬參數，可在單張 GPU 上於數小時內完成訓練，無需額外獎勵信號，僅依賴帶有動作標註的離線影像資料。相較之下，目前主流大型模型動輒數百億甚至上兆參數，訓練成本高達數十億美元。

實驗結果顯示，在機器人控制任務中，包括推動方塊、機械臂操作、雙房間導航與三維抓取等場景，LeWorldModel 的表現可與更大型模型相當甚至超越，同時在規劃速度上快約 48 倍，完整規劃時間從 47 秒縮短至約 1 秒。其關鍵在於將每一幀影像壓縮為 192 維隱向量，使 token 數量減少約 200 倍。

此外，該模型的內部表徵具備可解釋性。研究人員透過線性探針即可讀取物體位置、速度等物理資訊，並能辨識違反物理規律的異常事件，例如物體瞬間位移。

儘管成果引發關注，論文亦指出限制，包括目前僅支援約 5 步的短期規劃、僅在模擬環境驗證，尚未部署於真實機器人系統，以及在低維度簡單場景中，高斯先驗可能影響表現。

業界對此方向的興趣正在升溫。近年 AI 競爭焦點多集中於如 Alphabet(GOOGL-US) 與 OpenAI 等公司推動的大型語言模型，而 Anthropic 亦持續推出高性能生成式模型。另一方面，Tesla(TSLA-US) 執行長馬斯克近期亦對該研究表達興趣，顯示產業對替代路線的關注正在增加。

分析指出，若此類小型世界模型能在真實環境中驗證成功，將可能大幅改變 AI 產業的成本結構與發展方向，特別是在機器人與具身智能領域。相較於過去依賴巨型模型與資料中心的發展模式，小型高效率模型可能成為下一階段突破關鍵。

整體而言，楊立昆提出的路線並非否定生成式 AI，而是補充另一種更貼近物理世界理解的技術途徑。在產業已投入數千億美元發展大型模型的背景下，低成本且具可解釋性的世界模型，正逐步成為 AI 發展的重要分支。

更多鉅亨報導

點我加鉅亨網LINE好友🔥財經大事不漏接

請更新您的瀏覽器

理財

anue鉅亨網

更多理財相關文章

「高雄版西門町」遭批愈來愈空　房價重回3年前

川普緊急撤離跌倒畫面曝！白宮晚宴槍擊引維安擔憂川普：早知這麼危險就不當總統了

驗證碼要掰了！Google宣布Android手機登入流程重大改變

財政部急尋人！6張千萬發票沒人領「最低僅花11元」　5／5截止變廢紙

為什麼先救副總統？白宮記協晚宴槍擊事件發生後范斯比川普先撤離引發質疑

黃仁勳最擔心的事預言成真？DeepSeek V4轉搭華為晶片

請更新您的瀏覽器啟用Javascript

楊立昆對了？從生成式到理解式 小模型性能直追大型AI