AI 為何不再「越大越好」?專家:新一波擴展定律關鍵在「世界模型」
多年來,AI 產業幾乎遵循一條簡單但粗暴的規則:越大越好。從更大的資料集、更高的參數量到更強的運算力,只要把 AI 模型「餵飽」,模型能力就會一路上升。從 GPT-3 到 GPT-4,從早期的 AI 聊天機器人到具備推理能力的模型,這套定律在很長一段時間內確實有效。但現在,這條被稱為「擴展定律」(Scaling Law)的路線正遇到瓶頸。
LLM 的限制不在聰不聰明,而在它「只會預測」
專攻 AI 領域的伊斯蘭堡 COMSATS 大學終身副教授 Tehseen Zia 指出,目前的主流 AI 系統 LLM 如 ChatGPT,本質上是強大的統計引擎,它們透過機率預測下一個字,卻並不真正理解世界的因果機制。例如,AI 知道「玻璃掉落」後常接「碎裂」,是因為它看過無數包含這些詞彙的句子,而不是因為它理解重力或物體易碎的物理特性。
這種以語言為中心的學習方式,正撞上所謂的「資料牆」(Data Wall)。Zia 指出,公開網路資料本身是有限的,合成資料雖能暫時補洞,卻容易導致模型偏誤被反覆放大,甚至出現「模型崩塌」。單靠文字,AI 很難再跨出關鍵一步。
從「預測文字」走向「模擬世界」
於是,一群 AI 研究者、科技巨頭把焦點從「讀懂文字」挪向「理解文字背後的現實」,紛紛提出下一個可能改寫 AI 成長曲線的關鍵詞:世界模型(World model)。
世界模型不僅僅是預測下一個標記(token),而是像人類一樣在腦中建立物理環境的運作地圖。NVIDIA Cosmos 產品管理資深總監 TJ Galda 告訴《Computerworld》,世界模型的核心不在於生成更逼真的畫面,而在於「理解什麼事情在現實世界中是可能的」。這也是為什麼世界模型特別強調 3D 空間、物理定律、物體恆存與行動後果的預測能力。
這種模型,能在行動前先「跑一輪內部模擬」。例如,在工廠場域中,機器人不只是辨識「危險區域」的文字標示,而是理解若繼續前進,可能引發的實際風險。Zia 認為,AI 如要取得進步,就必須從統計模仿轉向現實模擬。
從 NVIDIA 到 World Labs,巨頭爭相佈局
這場從預測文字轉向模擬現實的典範轉移,已在矽谷引爆新一波競賽,吸引科技巨頭與頂尖研究者爭相佈局。
NVIDIA 推出的 Cosmos 和 Google DeepMind 的 Genie 3 都是針對物理世界設計的世界模型。由李飛飛創立的 World Labs,在 Andreessen Horowitz 等風投 2.3 億美元的銀彈支持下,致力於將 AI 從平面的 2D 像素提升至立體的 3D 世界,賦予 AI 像人類一樣豐富的「空間智慧」,以應用於創意與機器人領域。
Yann LeCun 自 Meta 卸任後創立的新創公司 Advanced Machine Intelligence (AMI Labs),專注開發具備常識、推理能力及持久記憶的系統,試圖解決當前大型語言模型缺乏邏輯規劃的痛點。Moonvalley 則是由 DeepMind 前研究員創立,專注於生成式 AI 影片的新創,並將世界模型應用於人形機器人訓練和電影製作。
新的擴展定律,解決能源與效率難題
Zia 指出,世界模型的重要性在於它帶來了新的擴展定律:成功的標準不再是模型閱讀了多少兆參數或標題的數據,而是其模擬的逼真度以及預測環境未來狀態的能力。
他認為,這種轉變同時解決了現有 AI 高昂的能源成本問題。傳統 LLM 必須預測每一個細節,例如影片中的每個像素,才能生成連貫的輸出,這非常耗能且效率低落。相比之下,世界模型學習的是抽象表徵,能像人類駕駛一樣,專注於道路狀況而忽略天空中無關緊要的雲朵形狀。這種選擇性的關注讓模型能以更少的訓練迭代次數收斂,學習速度更快且更具推廣性。
總結來說,AI 產業正處於從「聊天機器人時代」邁向「模擬器時代」的轉折點。這不僅僅是一次技術升級,而是對「學習」概念的根本變革。未來的 AI 將不再只是告訴我們發生了什麼,而是透過觀察世界、理解規則,向我們展示可能發生什麼以及原因。
*本文開放合作夥伴轉載,資料來源:《Unite.ai》、《Computerworld》、《Business Insider》,首圖來源:AI 工具生成
解鎖 3 堂 NVIDIA DLI 技能培訓課!立即報名 1/10【AI 人才年會暨 AI 職涯博覽會】,就能免費參與課程強化 AI 能力、為職涯加分