克服自動駕駛長尾困境:Waymo 如何用 Genie 3 世界模型,不必實際上路就能預演極端情境?
當一輛自動駕駛汽車在一條偏僻的高速公路上行駛,突然遠處出現一場巨大的龍捲風,接下來這輛無人駕駛車會怎麼做?
這是 Waymo 近日宣布推出的「Waymo World Model」場景之一。Waymo 表示,Waymo World Model 以 Google DeepMind 的 Genie 3 模型為基礎,這是一款用於大規模、超高擬真的自動駕駛模擬(autonomous driving simulation)工具,並特別針對「駕駛領域的嚴苛需求」進行調整與優化。
目前,Waymo 正利用 Genie 3 生成逼真的數位世界,讓系統能針對這些現實中難以捕捉的「邊緣案例(edge cases)」情境進行訓練,這將有助於自動駕駛技術持續發展並擴張至更多新市場。Waymo 也強調,透過模擬這些「不可能」發生的事件,能主動讓自動駕駛系統為最罕見的風險提前做好準備。
從龍捲風到大象,Waymo 讓自駕車學會從未看過的路況
Waymo 指出,傳統自動駕駛模擬通常受限於自家車隊實際蒐集到的數據,導致系統難以學習極端罕見的情況。相較之下,Waymo World Model 藉由 Genie 3 從大量且多樣化的網路影片中習得的廣泛「世界知識(world knowledge)」,順利突破這項限制,成功模擬出在現實生活中幾乎不可能大規模捕捉的邊緣案例。
為了展示新模型的能力,Waymo 公布多種極端天候與災害的模擬案例。除了被薄雪覆蓋的金門大橋,或是遭遇龍捲風以及被洪水淹沒且漂浮著家具的住宅死巷之外,更展示在熱帶城市中被白雪覆蓋的棕櫚樹街道,以及在大火中緊急駛離的場景。在長尾(long-tail)情境方面,模型甚至能生成路中央出現大象、獅子、德州長角牛,或是裝扮成暴龍的行人等突發狀況。
We’re excited to introduce the Waymo World Model—a frontier generative mode for large-scale, hyper-realistic autonomous driving simulation built on @GoogleDeepMind’s Genie 3.
By simulating the “impossible”, we proactively prepare the Waymo Driver for some of the most rare and… pic.twitter.com/Pl80OMDqLC
— Waymo (@Waymo) February 6, 2026
此外,Waymo World Model 還能將一般的行車記錄器或手機拍攝的影片直接轉換為多模態模擬環境,這讓 Waymo 能利用世界各地真實發生的駕駛事件進行訓練,使系統在未曾親臨現場的情況下,也能掌握該地的複雜路況,大幅提升模擬的真實性與廣度。
在感測器模擬方面,Waymo World Model 不僅能生成視覺影像,更具備將 2D 影片知識轉化為 3D 空間輸出的能力,可以產生高保真、多感測器的同步輸出,包含相機(camera)影像與光達(lidar)數據。Waymo 強調,雖然相機擅長捕捉視覺細節,但光達能提供精確的深度資訊與互補訊號,這對於自駕車感知系統至關重要。
三種「可控性」機制:用語言、路況配置、駕駛動作做反事實測試
不只是「生成」場景,Waymo 更在意的是工程師能否精準控制變因,做出可驗證的測試。因此,Waymo 表示 Waymo World Model 主要透過駕駛動作控制(driving action control)、場景佈局控制(scene layout control)以及語言控制(language control)等三種機制,來提升模擬的「可控性(controllability)」。
首先,駕駛動作控制讓工程師能模擬「如果當時這樣開會怎樣」的反事實(counterfactual)情境。例如,工程師可以測試在特定情況下,如果 Waymo Driver 選擇更自信地行駛而非禮讓,是否能安全通過。Waymo 特別強調,傳統像是 3D Gaussian Splats 這一類的重建方法,在模擬路徑與原始數據差異過大時,畫面往往會出現視覺崩壞(visual breakdowns),相較之下 Waymo 的生成式模型能保持高度的真實感與一致性,甚至支援測試完全偏離原始記錄的全新路徑。
其次,場景佈局控制允許開發者對道路環境進行「突變(mutations)」,包括調整交通號誌狀態、修改道路結構,或是選擇性地放置其他用路人的位置,這意味著工程師可以精確地建構出特定的客製化場景。
第三,語言控制被視為最靈活的工具。工程師可以用文字提示來隨意調整時間與天候條件,例如將場景從晴天轉為霧天,或模擬感測器較難運作的強光與低光源環境,甚至憑空生成完全合成的虛擬場景。
除了上述三種控制機制,為了應對如窄巷會車等需要較長時間演練的複雜情境,Waymo 還開發出 Waymo World Model 的高效能版本,讓系統能以四倍速播放進行長距離模擬,並在大幅降低運算成本的同時維持高擬真度,從而實現大規模的驗證測試。
「這將增強 Waymo 在更多地點與新駕駛環境中安全擴大服務規模的能力,」Waymo 強調,結合 Genie 3 的廣泛世界知識、細緻的可控性與多模態擬真度,Waymo World Model 能「主動讓 Waymo Driver 為某些最罕見和最複雜的場景做好準備」,從而在真實世界遇到這些挑戰前,就已建立起嚴格的安全基準,這也讓 Waymo 得以在不必用真實道路承擔過多試錯風險的前提下,逐步將服務拓展到更多新市場。
*本文開放合作夥伴轉載,資料來源:《Ars Technica》、《The Verge》、《The Decoder》、《WinBuzzer》、《Bloomberg》、Waymo,首圖來源:Waymo