「沒有空間智慧，人工智慧就不完整」AI教母李飛飛的大世界模型是什麼？

想打造「實體AI」，就得讓人工智慧（AI）掌握空間智慧。有「AI教母」之稱的李飛飛，正透過新創公司「World Labs」推進「大型世界模型」的願景。為何她相信空間智慧是補完人工智慧能力的關鍵拼圖？這樣的世界模型初期應用何在？AI的物理轉向，能啟動比大語言模型更廣泛的影響力嗎？

大語言模型（LLM）的發展，以自然語言為溝通基礎，根本性地改變了人與電腦互動的方式。新一波「實體AI」的願景，則想重新定義機器與物理世界互動的方式。

2024年成立新創公司「World Labs」的史丹佛大學教授李飛飛，近日接受a16z及No Priors播客專訪，分享團隊正在打造的「大型世界模型」（LWM）的願景。她指出，空間智慧在演化中扮演要角，動物及人類都擁有這樣的智慧，「沒有空間智慧，人工智慧就不完整。」

李飛飛已在人工智慧領域耕耘數十年，在電腦視覺領域有關鍵貢獻。尤其是透過打造「ImageNet」這個大規模的圖像資料庫，證明了數據在AI研發中的重要性。她也曾任Twitter董事會獨立成員、Google Cloud AI/ML首席科學家。

從視覺轉向空間智慧，是李飛飛研發生涯的自然一步。她解釋，自己長年研究視覺能力，「不需要LLM的出現，來說服我LWM是重要的。」但LLM的突破與進展，「確實讓我們感到距離LWM更近一步。」

在演化過程中，生物演化出眼睛這樣的器官接收光線，開始以視覺認識自己身處的世界，並逐漸對外在環境產生理解、推理並與之互動的能力，也就是更強大的智慧能力，可稱為「空間智慧」。透過經驗，生物對世界的物理原則有所理解，能夠在世界中導航、行動。這也是現前的AI還無法完整掌握的能力。

目前，大語言模型等AI模型展現的語言能力縱然令人印象深刻，但語言能力只是人類智慧的一個部分。就次序來說，在發展出語言能力之前，人類就已經透過空間智慧與實體世界互動，例如閃避障礙物、接住拋擲的物件等。

李飛飛解釋，語言適合傳遞思想與資訊，但對於人類所在的立體物理世界來說，語言不是最適合的編碼方式。從DNA螺旋結構到蛋白質折疊，語言不足以完整捕捉所有的實體事物結構。她表示，「語言並不存在（自然）世界中，而是被生成出來的。」

人工智慧的快速進展，讓科學家們更加大膽地追求過往看似遙遠的目標。李飛飛認為，AI已大致能掌握語言能力。她決定自己投入研發，解決「空間智慧」這個難題。

掌握空間智慧，才能開啟多元實體應用

World Labs在成立幾個月間，便成功融資2.3億美元。投資方包括Andreessen Horowitz、NEA、Radical Ventures，以及諸多業界知名人士，如貝尼奧夫（Marc Benioff）、施密特（Eric Schmidt）、辛頓（Geoffrey Hinton）、霍夫曼（Reid Hoffman）與卡帕西（Andrej Karpathy）等人。

對李飛飛來說，空間智慧不只是能夠認識外在世界，也包括能在腦中重建、理解這個立體世界，也才能規劃自己在世界中的行動。即使是人類，也需要訓練才能掌握這種能力。例如，要能閉上眼睛、在腦中精準重構遠方所見的建築物形狀及體量，可能只有建築師能做得精準。

打造空間智慧的難度相當高，可從自駕車的研發見得。科學家已在此領域耕耘將近20年，仍未開發出足夠理想的系統。但若要在物理世界中真正釋放人工智慧的潛能，空間智慧是必須克服的挑戰。也因此，若能打造出足夠完整的空間智慧，有望對實體世界帶來比LLM更大的影響。

目前的多模態模型可以生成文字、影像與影片，但它們依然是平面的。而世界模型生成的是空間。這個空間裡的物件符合幾何、物理原理，使用者可以與之互動、進行創造。

World Labs便正在打造一個可以掌握空間智慧，生成立體世界的基礎模型，期望後續開啟各種多元應用。

世界模型訓練不易，細部控制、介面設計都是難題

目前，訓練世界模型有兩種主流進路。一種是以影片為基礎，類似於用過去的影像幀與使用者輸入，預測未來的影像幀，藉此讓模型習得一致性等物理性質。這種作法的優點是現存大量高品質的影片資料可用於訓練，但模型對空間互動的掌握度可能不及World Labs採用的進路，也就是用文字或影像指令生成原生的3D再現。

採用3D原生法，World Labs已經研發出從單幅影像生成3D環境的技術。但這種作法的一大挑戰，是高品質的3D資料數量相當有限，而且標記不易進行。李飛飛承認，即使我們每分每秒都活在立體世界中，立體資料很難形式化傳遞。

此外，諸如修改生成場景中的特定物件、動態性地調整天氣條件等控制問題，以及根據不同專業需求，將模型能力整合進入工作流程的介面問題，也都還是尚待解決之挑戰。

為此，從電腦視覺、擴散模型，到資料與機器學習基礎建設等領域，World Labs已召集一批多元專業背景人才，合作破解空間智慧。其中也包括共同研發了神經輻射場（NeRF）的米爾登霍爾（Ben Mildenhall）。NeRF是一種神經網路模型，可使用空間定位和立體渲染，從一系列的2D影像生成完整的3D場景。

創意工作者將是首波受益者，無限元宇宙是遠程願景

就初期應用來說，李飛飛認為世界模型將對創意工作者很有幫助。就像現在LLM大幅加速了程式設計師的工作效能，有了可生成3D空間的世界模型後，工業設計師、遊戲開發者、電影製作人與建築師等職業的工作流程都能更加簡易、快速。

例如，透過指令與影像，電影製作人就可創建虛擬場景測試氛圍感受，機器工程師可在虛擬醫院裡訓練照護機器人，城市規劃師也可模擬城市景觀與基礎設施。

中長期而言，機器人發展也將獲益良多。李飛飛直言，「我毫不懷疑，人類將會進入一個與機器（人）共存的時代。但不只是人型機器人，而是各種形式、形狀的機器。」

各種實體化的機器智慧，都需要具備空間智慧，才能與實體世界中的其他行為者互動、協作。李飛飛認為，機器人可能更是一個系統整合的挑戰，需要高度多模態的系統，包括現在較受到忽視的觸覺能力；這在精細操作上可能相當重要。

遠程展望，世界模型可望開啟全新體驗的可能性，打造出無限個可即時互動的虛擬世界，讓人類突破現實世界體驗的局限。有如《一級玩家》（Ready Player One）中的「綠洲」，每個人都能在虛擬世界中探索、創造自己獨特的故事。

李飛飛在訪談中表示，如果能做出這樣的世界模型，她會想進入引擎或洗碗機內部，親眼看見它們運作的過程。

AI賦能人類，創造者更能無懼追夢

自身也是創業者的李飛飛，給其他創業者及科學家的建議是：保持無所畏懼（fearless）的心態。她解釋，無懼是一種巧妙的心理狀態，介於瘋狂妄想與理智無畏之間。如果太過理智，就會缺少挑戰非常龐大問題的勇氣。但若太過瘋狂，也很難踩對步伐。

她認為，無懼的外顯特質是充滿創意、具有野心，不害怕不確定性與未知。這也是李飛飛成立World Labs，挑戰空間智慧這個龐大難題的心態。

AI能力突飛猛進，讓人類得以用更快、更簡易的方式執行既有任務，或甚至是做到過去做不到的事。跨越「被AI取代」的焦慮，這可能是最好的「無懼追夢」的時代。

更多精采報導，歡迎加入《遠見》 Line官方帳號！

請更新您的瀏覽器

理財

遠見雜誌

掌握空間智慧，才能開啟多元實體應用

世界模型訓練不易，細部控制、介面設計都是難題

創意工作者將是首波受益者，無限元宇宙是遠程願景

AI賦能人類，創造者更能無懼追夢

更多理財相關文章

友達（2409）爆7325萬違約交割！神秘大戶遭點名

問題油致多家名店中鏢啟動回收銷毀「守關功臣」是這家

這檔妖股暴跌又衝漲停！今開盤一小時湧14萬張奪成交王

台股恐進入「加班模式」！交易擬延到3點半　外資爽散戶累？專家這樣看

不准吃午餐？台股擬「延長到15:30」不午休　謝金河提1關鍵示警：別為改變而改變

台版VT貝萊德「009826」問世！買下全世界？值得買嗎？存股專家曝看法

請更新您的瀏覽器啟用Javascript

「沒有空間智慧，人工智慧就不完整」AI教母李飛飛的大世界模型是什麼？

遠見雜誌

掌握空間智慧，才能開啟多元實體應用

世界模型訓練不易，細部控制、介面設計都是難題

創意工作者將是首波受益者，無限元宇宙是遠程願景

AI賦能人類，創造者更能無懼追夢

更多理財相關文章

友達（2409）爆7325萬違約交割！神秘大戶遭點名

問題油致多家名店中鏢啟動回收銷毀 「守關功臣」是這家

這檔妖股暴跌又衝漲停！今開盤一小時湧14萬張奪成交王

台股恐進入「加班模式」！交易擬延到3點半 外資爽散戶累？專家這樣看

不准吃午餐？台股擬「延長到15:30」不午休 謝金河提1關鍵示警：別為改變而改變

台版VT貝萊德「009826」問世！買下全世界？值得買嗎？存股專家曝看法

請更新您的瀏覽器

問題油致多家名店中鏢啟動回收銷毀「守關功臣」是這家

台股恐進入「加班模式」！交易擬延到3點半　外資爽散戶累？專家這樣看

不准吃午餐？台股擬「延長到15:30」不午休　謝金河提1關鍵示警：別為改變而改變