從視覺邁向智慧：李飛飛呼籲AI監管框架跟上科技進展

在巴黎AI行動峰會上，「AI教母」李飛飛呼籲及早為人工智慧建立治理框架。在鼓勵創新與監管應用之間，政策平衡點何在？創立「World Labs」打造空間智慧的李飛飛，為何相信前行之路必須從大語言模型轉向「大世界模型」？

打造「ImageNet」、推動深度學習革命的電腦科學家李飛飛，在第一線見證了人工智慧的迅猛發展速度。在2月於巴黎舉辦的AI行動峰會上，她於開幕致詞中呼籲，一個整體性的治理框架必須跟上技術進展的腳步。

如何在法規監管與科學創新中尋求平衡，是AI治理的核心議題。對此，李飛飛提出三大基本原則：實證、協作與人本價值。

李飛飛主張，監管應採取務實進路。政策應是準確、可行的，而非受到聳動辯論的誤導。她表示，「治理應基於科學，而非科幻。」目前的AI在某些任務上展現強大能力，但遠非具有意識、意圖或自由意志的智慧體。

她口中的務實，也包括不過度箝制研究與創新。李飛飛認為，人工智慧還處於發展初期，應扶植創新、但防止濫用。例如，AI輔助醫療診斷可以帶來龐大效益，但應盡可能排除偏見影響。

李飛飛亦呼籲為開源社群及學界擴大取得模型與算力等資源。學界擁有高品質的教育培訓能力，企業也才有足以貢獻所長的人才來源。

在支持開放生態系、避免抑制創新上，李飛飛看法與史丹佛大學同事吳恩達（Andrew Ng）教授雷同。吳恩達認為，監管應聚焦在應用階段，也就是針對用例建立規範，而非對基礎模型開發加諸過度限制。

吳恩達認為，監管應聚焦在應用階段，也就是針對用例建立規範，而非對基礎模型開發加諸過度限制。張智傑攝

從語言能力邁向「空間智慧」

自神經網路模型「AlexNet」在李飛飛主籌的大規模視覺辨識競賽中奪冠，促成深度學習加速發展以來，已度過13個年頭。這段時間，電腦視覺大有進步，並轉向影像及影片生成。

在2024年創立「World Labs」的李飛飛認為，電腦接下來必須從「觀看」進展到「行動」。銜接這兩大能力的關鍵，她稱為「空間智慧」（spatial intelligence）。（延伸閱讀：李飛飛AI創業？空間智能將引領「數位寒武紀」大爆發？）

顧名思義，空間智慧是AI系統能夠掌握立體世界的智慧。擁有空間智慧的機器，可以感知、理解環境，對空間與其中的事物進行推理，並與世界互動。

近年驅動生成式AI熱潮的技術，多以模仿人類語言能力的大語言模型為基礎。但李飛飛認為，視覺能力在人類理解世界的過程中，扮演更基礎的角色。

「沒有人教導兒童要如何觀看。」她在《經濟學人》寫道，「兒童透過經驗與例證理解世界。」

視覺能力與智慧能力的演化關聯性，受牛津大學動物學家派克（Andrew Parker）的「光開關理論」（light switch theory）啟發。派克認為，視覺的出現，可能是觸發寒武紀大爆發（Cambrian Explosion）的「開關」。這是地球生命史上，多細胞生物物種快速增長的一段爆發性時期。

當生物可以透過視覺能力，從環境中取得更多資訊，也隨之演化出更強的智慧能力。李飛飛認為，人工智慧也正經歷演化大爆發的階段，「我們需要從大語言模型轉移到大世界模型（large world models）。」

李飛飛2024年創立「World Labs」，她認為，電腦接下來必須從「觀看」進展到「行動」。

世界模型是AI界的「下一件大事」？

世界模型也稱為世界模擬器，其概念源自人類對世界發展出的一種心智模型。透過感官獲取關於世界的資訊，人腦產生對世界的抽象再現，並形成對世界更具體的理解。透過世界模型，人類也得以對世界狀態進行預測。

以球類運動為例，球員並沒有真正看見球移動的位置，而是在極短的時間內預測球將會抵達的位置，來進行回擊。我們可以說，擊球極度準確的球員，腦中的世界模型擁有高度準確的預測力。

在Sora等影片生成模型的早期輸出中，有時移動的物件會消失、或是融入進背景中。這顯示這些AI系統對立體世界的掌握度不足，沒有真正的理解能力。

李飛飛認為，需要透過空間智慧，打造出可以理解並做出行動的大世界模型。現實世界是立體的，且遠比語言文字更加複雜。要解鎖更加進階的機器智慧，實現更無縫的人機協作，包括正受到熱議的「AI代理」，大世界模型會是充滿希望的一步。

Meta首席AI科學家楊立昆（Yann LeCun）亦重視世界模型，勝過大語言模型。但比起將重點放在電腦視覺、3D模擬能力的李飛飛，楊立昆更重視自學習監督（SSL）與複雜規劃、預測的能力。（延伸閱讀：Meta「PARTNR」加速機器人到你家，下波AI革命將啟動？）

不過，兩者長遠的目標都是打造出更接近人類智慧水平的AI系統。尤其是更加理解世界常識、具有與世界互動能力的人工智慧。

World Labs估值十億美元，從2D邁向3D

「World Labs」在短短幾個月內就成功融資2.3億美元，估值突破十億美元。2024年底，World Labs宣布「邁向空間智慧的第一步」，發表了可以從單一影像生成3D世界的AI系統。生成的世界具穩定性，且符合基本的幾何與物理規則。

目前，這套系統已提供給創意工作者進行實驗。World Labs希望能在2025年推出第一個產品。其核心技術，預計將對遊戲、電影與設計等產業帶來最直接的影響。

打造大世界模型的一大挑戰，依然是龐大算力與資料的需求。目前也仍難以阻絕幻覺、偏見的風險。

但李飛飛相信，賦予機器「空間智慧」，將能啟動無數應用。從家居、照護到醫療（人體也是立體空間），以及結合現實與虛擬的擴增實境。人類與機器的協作關係，將前進到前所未見的境地。

更多精采報導，歡迎加入《遠見》 Line官方帳號！

請更新您的瀏覽器

理財

遠見雜誌

從語言能力邁向「空間智慧」

世界模型是AI界的「下一件大事」？

World Labs估值十億美元，從2D邁向3D

更多理財相關文章

她多1招　退休金1000萬！勞動部也認證了

台股早盤漲近400點再飆新高台積電追平1705元天價

帶嬰睡車上！單親媽用1500元逆轉悲慘人生　靠「腦海1美食」年收2.8億

00919、00713、00918等13檔台股 ETF 本周共配息157億元

Google兩大創辦人平安夜「跑路」！加州億萬富翁稅來襲、矽谷科技富豪相繼逃離

台積電衝1705元天價迎法說會　台股早盤上漲逾300點攻新高、記憶體成處置股大本營

請更新您的瀏覽器啟用Javascript

從視覺邁向智慧：李飛飛呼籲AI監管框架跟上科技進展

遠見雜誌

從語言能力邁向「空間智慧」

世界模型是AI界的「下一件大事」？

World Labs估值十億美元，從2D邁向3D

更多理財相關文章

她多1招 退休金1000萬！勞動部也認證了

台股早盤漲近400點再飆新高 台積電追平1705元天價

帶嬰睡車上！單親媽用1500元逆轉悲慘人生 靠「腦海1美食」年收2.8億

00919、00713、00918等13檔台股 ETF 本周共配息157億元

Google兩大創辦人平安夜「跑路」！加州億萬富翁稅來襲、矽谷科技富豪相繼逃離

台積電衝1705元天價迎法說會 台股早盤上漲逾300點攻新高、記憶體成處置股大本營

請更新您的瀏覽器

她多1招　退休金1000萬！勞動部也認證了

台股早盤漲近400點再飆新高台積電追平1705元天價

帶嬰睡車上！單親媽用1500元逆轉悲慘人生　靠「腦海1美食」年收2.8億

台積電衝1705元天價迎法說會　台股早盤上漲逾300點攻新高、記憶體成處置股大本營