李飛飛出手!World Labs 推首個商業世界模型 Marble,瞄準空間智慧大戰
由 AI 先驅李飛飛創立的新創 World Labs 宣布,正式發表其首款商業世界模型產品:Marble。這款模型在兩個月前以預覽版形式亮相,如今開放一般用戶與企業採用,代表世界模型從研究走向商業化的重要一步。
Marble 的核心能力,是在把「文字」與「畫面」直接變成完整的 3D 世界。使用者只要輸入一段文字描述,或上傳照片、全景圖、短影片,甚至是粗略的 3D 格局,就能生成一個可自由探索的虛擬環境,而且是持久存在、不會一路變形或閃爍的世界。值得關注的是,這些世界可以下載成可編輯的 3D 資產,直接匯入既有的遊戲引擎、設計或 VFX 工作流程中。
此外,相較於 Google Genie、NVIDIA Cosmos、Decart AI 等同樣主打世界模型的產品,多數方案仍偏向「即時生成」畫面:使用者在畫面裡移動時,場景邊走邊長出來,難以穩定保存與二次創作。Marble 則主打「持久世界」與完整匯出能力,讓世界模型真正成為內容與模擬管線的一環,而不是一次性的視覺效果。
四大能力「雕刻」世界:多模態輸入、編輯、擴展、匯出
從產品設計來看,Marble 目前已具備四大關鍵特性:多模態輸入、編輯、擴展與匯出。
在多模態輸入上,Marble 不只支援文字、單張圖片,還能接收多張照片、短影片或粗略 3D 佈局。創作者可以先用其他生成式 AI 畫出幾張概念圖,再交給 Marble 把不同視角「縫合」成一個連貫的 3D 世界,也能用實體空間的多角度照片,重建近似數位分身的虛擬場景。
第二個亮點是編輯。Marble 內建 AI 原生編輯工具,使用者可以在 2D 或 3D 視角下,移除、替換物件,改變光線與風格,或重新規劃整個空間的結構,編輯可以很小、很局部。World Labs 也推出實驗性 3D 編輯器 Chisel,讓進階用戶先用方塊、平面勾勒出牆面、家具、地形等粗略格局,再用文字描述風格,由 Marble 自動把「結構」轉化為符合風格的完整世界。結構與風格被刻意拆開,讓創作者可以反覆調整佈局或美術,而不必每次從零開始重生世界。
(Chisel 功能示範。左圖粗略的 3D 場景決定了世界的空間結構,而文字提示則掌控整體的風格與氛圍,成品為右圖。此範例的文字提示中譯:「一座美麗的現代藝術博物館,鋪著木地板,裡面擺滿了色彩繽紛的繪畫和曲線優美的雕塑」。圖片來源:擷取自 Word Labs)
第三個能力是擴展。當使用者走到世界邊界,或覺得某一區域細節不足時,可以指定區域進行「擴張」,請 Marble 依照既有風格與幾何規則,把世界往外延伸、補齊破碎邊緣或稀疏區塊。若要打造更大場景,則可透過「組曲模式」把多個已生成世界拼接成超大型環境。
最後是匯出能力。完成的 Marble 世界可以輸出為 Gaussian splats、三角網格或影片等多種格式,方便帶入 Unreal Engine、Unity 或傳統 VFX、動畫與 VR 工作流程。對專業團隊來說,這意味著世界模型不只是 demo,而是可直接串接既有製程的內容來源。
世界模型為何重要:從自駕車、機器人到娛樂產業
在李飛飛與 World Labs 的設定裡,世界模型不只是「更炫的 3D 內容生成器」,而是讓 AI 理解現實世界的關鍵基礎建設。世界模型能為 AI 建立一個內在的「世界表徵」,讓系統不只看見畫面,而是能預測物體如何移動、互動,進而推演下一步可能的結果。
這種能力對自動駕駛與機器人至關重要。過去訓練自駕車或機器人,必須仰賴大量實地收集的感測資料,成本高且場景有限。有了像 Marble 這樣的世界模型,企業可以在虛擬環境中大量模擬多變路況、極端情境與長尾場景,產生更豐富的訓練資料,加速系統在真實世界的安全部署。
在娛樂與內容產業,世界模型則有望改寫美術與場景製作流程。遊戲開發商可以先用 Marble 生出背景與環境,再交由內部團隊在引擎中補上互動邏輯與劇情事件。電影與影集的視覺特效團隊,也能利用 Marble 生成穩定的 3D 場景,以傳統攝影機運鏡方式排戲、分鏡,避免現有 AI 影片工具常見的鏡頭漂移與畫面不一致問題。同時,VR 裝置長期面臨內容缺口,Marble 這類工具有機會成為大量虛擬場景的來源。
李飛飛眼中 AI 的下一個十年:超越 LLM 的「空間智慧」
李飛飛過去以建立影像資料集 ImageNet 聞名,如今她將目光轉向「世界模型」與「空間智慧」(spatially-intelligent)。她在近期的長文與公開談話中多次強調,當前的主流大型語言模型(LLM),雖然已經改變人們取得與處理知識的方式,但本質上仍是「在黑暗中寫作的文字大師」,擅長處理符號,卻缺乏對真實世界的經驗與理解。
她認為,AI 發展的下一個十年,將建構真正具有空間智慧的機器,而建構空間智慧需要比 LLM 更具野心的方案:世界模型。
在她的定義裡,真正的世界模型必須同時具備三個特性:可以生成符合幾何與物理規則的世界,是天生多模態的,並且能根據人或機器人的動作,給出下一個世界狀態,也就是具備互動性。只有在這樣的前提下,AI 才能像人類一樣,在空間中感知、推理與行動,進一步在科學研究、新材料設計、醫療與日常生活輔助上,扮演更積極的角色。
從這個角度看,Marble 只是邁向空間智慧的第一步。現在它已經能生成、編輯、擴展與匯出世界,下一階段的關鍵,將是讓人類與智慧代理可以在這些世界裡自然互動,透過模擬與試驗,把虛擬世界的經驗反饋到真實決策之中。
*本文開放合作夥伴轉載,資料來源:《TechCrunch》、《SiliconANGLE》、 World Labs、《Fast Company》、Dr. Fei-Fei Li,首圖來源:World Labs