請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

「沒有空間智慧,人工智慧就不完整」AI教母李飛飛的大世界模型是什麼?

遠見雜誌

更新於 2025年06月11日09:43 • 發布於 2025年06月11日07:51 • 傅莞淇

想打造「實體AI」,就得讓人工智慧(AI)掌握空間智慧。有「AI教母」之稱的李飛飛,正透過新創公司「World Labs」推進「大型世界模型」的願景。為何她相信空間智慧是補完人工智慧能力的關鍵拼圖?這樣的世界模型初期應用何在?AI的物理轉向,能啟動比大語言模型更廣泛的影響力嗎?

大語言模型(LLM)的發展,以自然語言為溝通基礎,根本性地改變了人與電腦互動的方式。新一波「實體AI」的願景,則想重新定義機器與物理世界互動的方式。

2024年成立新創公司「World Labs」的史丹佛大學教授李飛飛,近日接受a16z及No Priors播客專訪,分享團隊正在打造的「大型世界模型」(LWM)的願景。她指出,空間智慧在演化中扮演要角,動物及人類都擁有這樣的智慧,「沒有空間智慧,人工智慧就不完整。」

李飛飛已在人工智慧領域耕耘數十年,在電腦視覺領域有關鍵貢獻。尤其是透過打造「ImageNet」這個大規模的圖像資料庫,證明了數據在AI研發中的重要性。她也曾任Twitter董事會獨立成員、Google Cloud AI/ML首席科學家。

從視覺轉向空間智慧,是李飛飛研發生涯的自然一步。她解釋,自己長年研究視覺能力,「不需要LLM的出現,來說服我LWM是重要的。」但LLM的突破與進展,「確實讓我們感到距離LWM更近一步。」

在演化過程中,生物演化出眼睛這樣的器官接收光線,開始以視覺認識自己身處的世界,並逐漸對外在環境產生理解、推理並與之互動的能力,也就是更強大的智慧能力,可稱為「空間智慧」。透過經驗,生物對世界的物理原則有所理解,能夠在世界中導航、行動。這也是現前的AI還無法完整掌握的能力。

目前,大語言模型等AI模型展現的語言能力縱然令人印象深刻,但語言能力只是人類智慧的一個部分。就次序來說,在發展出語言能力之前,人類就已經透過空間智慧與實體世界互動,例如閃避障礙物、接住拋擲的物件等。

李飛飛解釋,語言適合傳遞思想與資訊,但對於人類所在的立體物理世界來說,語言不是最適合的編碼方式。從DNA螺旋結構到蛋白質折疊,語言不足以完整捕捉所有的實體事物結構。她表示,「語言並不存在(自然)世界中,而是被生成出來的。」

人工智慧的快速進展,讓科學家們更加大膽地追求過往看似遙遠的目標。李飛飛認為,AI已大致能掌握語言能力。她決定自己投入研發,解決「空間智慧」這個難題。

掌握空間智慧,才能開啟多元實體應用

World Labs在成立幾個月間,便成功融資2.3億美元。投資方包括Andreessen Horowitz、NEA、Radical Ventures,以及諸多業界知名人士,如貝尼奧夫(Marc Benioff)、施密特(Eric Schmidt)、辛頓(Geoffrey Hinton)、霍夫曼(Reid Hoffman)與卡帕西(Andrej Karpathy)等人。

對李飛飛來說,空間智慧不只是能夠認識外在世界,也包括能在腦中重建、理解這個立體世界,也才能規劃自己在世界中的行動。即使是人類,也需要訓練才能掌握這種能力。例如,要能閉上眼睛、在腦中精準重構遠方所見的建築物形狀及體量,可能只有建築師能做得精準。

打造空間智慧的難度相當高,可從自駕車的研發見得。科學家已在此領域耕耘將近20年,仍未開發出足夠理想的系統。但若要在物理世界中真正釋放人工智慧的潛能,空間智慧是必須克服的挑戰。也因此,若能打造出足夠完整的空間智慧,有望對實體世界帶來比LLM更大的影響。

目前的多模態模型可以生成文字、影像與影片,但它們依然是平面的。而世界模型生成的是空間。這個空間裡的物件符合幾何、物理原理,使用者可以與之互動、進行創造。

World Labs便正在打造一個可以掌握空間智慧,生成立體世界的基礎模型,期望後續開啟各種多元應用。

世界模型訓練不易,細部控制、介面設計都是難題

目前,訓練世界模型有兩種主流進路。一種是以影片為基礎,類似於用過去的影像幀與使用者輸入,預測未來的影像幀,藉此讓模型習得一致性等物理性質。這種作法的優點是現存大量高品質的影片資料可用於訓練,但模型對空間互動的掌握度可能不及World Labs採用的進路,也就是用文字或影像指令生成原生的3D再現。

採用3D原生法,World Labs已經研發出從單幅影像生成3D環境的技術。但這種作法的一大挑戰,是高品質的3D資料數量相當有限,而且標記不易進行。李飛飛承認,即使我們每分每秒都活在立體世界中,立體資料很難形式化傳遞。

此外,諸如修改生成場景中的特定物件、動態性地調整天氣條件等控制問題,以及根據不同專業需求,將模型能力整合進入工作流程的介面問題,也都還是尚待解決之挑戰。

為此,從電腦視覺、擴散模型,到資料與機器學習基礎建設等領域,World Labs已召集一批多元專業背景人才,合作破解空間智慧。其中也包括共同研發了神經輻射場(NeRF)的米爾登霍爾(Ben Mildenhall)。NeRF是一種神經網路模型,可使用空間定位和立體渲染,從一系列的2D影像生成完整的3D場景。

創意工作者將是首波受益者,無限元宇宙是遠程願景

就初期應用來說,李飛飛認為世界模型將對創意工作者很有幫助。就像現在LLM大幅加速了程式設計師的工作效能,有了可生成3D空間的世界模型後,工業設計師、遊戲開發者、電影製作人與建築師等職業的工作流程都能更加簡易、快速。

例如,透過指令與影像,電影製作人就可創建虛擬場景測試氛圍感受,機器工程師可在虛擬醫院裡訓練照護機器人,城市規劃師也可模擬城市景觀與基礎設施。

中長期而言,機器人發展也將獲益良多。李飛飛直言,「我毫不懷疑,人類將會進入一個與機器(人)共存的時代。但不只是人型機器人,而是各種形式、形狀的機器。」

各種實體化的機器智慧,都需要具備空間智慧,才能與實體世界中的其他行為者互動、協作。李飛飛認為,機器人可能更是一個系統整合的挑戰,需要高度多模態的系統,包括現在較受到忽視的觸覺能力;這在精細操作上可能相當重要。

遠程展望,世界模型可望開啟全新體驗的可能性,打造出無限個可即時互動的虛擬世界,讓人類突破現實世界體驗的局限。有如《一級玩家》(Ready Player One)中的「綠洲」,每個人都能在虛擬世界中探索、創造自己獨特的故事。

李飛飛在訪談中表示,如果能做出這樣的世界模型,她會想進入引擎或洗碗機內部,親眼看見它們運作的過程。

AI賦能人類,創造者更能無懼追夢

自身也是創業者的李飛飛,給其他創業者及科學家的建議是:保持無所畏懼(fearless)的心態。她解釋,無懼是一種巧妙的心理狀態,介於瘋狂妄想與理智無畏之間。如果太過理智,就會缺少挑戰非常龐大問題的勇氣。但若太過瘋狂,也很難踩對步伐。

她認為,無懼的外顯特質是充滿創意、具有野心,不害怕不確定性與未知。這也是李飛飛成立World Labs,挑戰空間智慧這個龐大難題的心態。

AI能力突飛猛進,讓人類得以用更快、更簡易的方式執行既有任務,或甚至是做到過去做不到的事。跨越「被AI取代」的焦慮,這可能是最好的「無懼追夢」的時代。

更多精采報導,歡迎加入《遠見》 Line官方帳號!

延伸閱讀:

查看原始文章

更多理財相關文章

01

友達(2409)爆7325萬違約交割!神秘大戶遭點名

EBC 東森新聞
02

問題油致多家名店中鏢啟動回收銷毀 「守關功臣」是這家

鏡週刊
03

這檔妖股暴跌又衝漲停!今開盤一小時湧14萬張奪成交王

EBC 東森新聞
04

台股恐進入「加班模式」!交易擬延到3點半 外資爽散戶累?專家這樣看

鏡報
05

不准吃午餐?台股擬「延長到15:30」不午休 謝金河提1關鍵示警:別為改變而改變

鏡報
06

台版VT貝萊德「009826」問世!買下全世界?值得買嗎?存股專家曝看法

商周財富網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...