黃仁勳的底層護城河保衛戰:NVIDIA 豪砸 260 億美元打造的美製開放模型亮相
隨著 AI 代理(Agentic AI)開始被企業用於自動化更複雜的任務,AI 產業的競爭焦點正悄悄改變。過去市場比的是模型規模與能力上限,如今企業更在意的,則是推理效率、部署成本,以及模型是否適合多代理系統長時間運作。
NVIDIA 宣布推出的開放權重模型 Nemotron Super 3,正是對此新需求的回應。這款模型主打為 Agentic AI 系統設計,採用混合式 Mixture-of-Experts(MoE)架構,具備 100 萬 token context window,目標是在處理長流程、多步驟任務時,降低運算成本與所謂的「思考稅」(thinking tax)。
這也顯示,AI 產業正從單一大型模型競賽,轉向更重視推理效率、多代理系統與開源生態的新階段。而 NVIDIA 也試圖藉此從 AI 晶片供應商,進一步轉型成為完整的 AI 生態系提供者。
多代理系統興起,推理成本成新瓶頸
AI 代理之所以成為新焦點,是因為企業希望它們不只回答問題,而能真正執行任務,例如協助寫程式、處理資安事件、搜尋資料,甚至完成跨工具的工作流程。但這類多代理系統也帶來新問題。
根據 NVIDIA 與《VentureBeat》引述的資料,多代理應用在執行長流程任務時,產生的 token 量可能是一般聊天互動的 15 倍。原因在於,代理每完成一步,都必須反覆帶入歷史脈絡、工具輸出與中間推理結果。這種現象被 NVIDIA 稱為「上下文爆炸」(context explosion)。當上下文持續膨脹,模型不僅更昂貴,也更容易在長任務中偏離原本目標。
另一個問題則是「思考稅」。也就是說,若每個子任務都交由大型推理模型處理,成本與延遲都會迅速上升,使 Agentic AI 很難在企業場景中大規模落地。Nemotron Super 3 的定位,正是試圖在這兩個瓶頸之間找到平衡。
Nemotron Super 3:為 Agentic AI 優化的開放模型
NVIDIA 將 Nemotron Super 3 定位為其目前最強的開放權重模型之一,專門用於大規模 Agentic AI 系統。模型總參數量約 1,200 億,但推理時實際啟用的只有 120 億參數,藉此控制推理成本與速度。
官方表示,這款模型在高容量推理與多步驟任務上,能提供比前一代 Nemotron Super 提升超過 5 倍的吞吐量,同時改善準確度。《VentureBeat》報導,目前該模型在 DeepResearch Bench 評測中排名第一。這項基準主要用來測試 AI 是否能在大量文件資料中進行深入、跨步驟的研究與分析。此外,在高負載情境下,它也展現出效能優勢,吞吐量最高可達 gpt-oss-120B 的 2.2 倍,以及 Qwen3.5-122B 的 7.5 倍。
更重要的是,Nemotron Super 3 具備 100 萬 token 的原生 context window。這意味著它在處理大型程式碼庫、長文件集或多步驟工作流程時,能維持更長期的記憶與任務一致性,減少多代理系統常見的脈絡斷裂問題。
三重混合架構,核心是效率
從架構設計來看,Nemotron Super 3 的技術突破在於其獨特的「三重混合架構」。
它結合了能高效處理超長序列的 Mamba-2 狀態空間模型(SSM),以及能精準檢索關鍵資訊的 Transformer 注意力層。更重要的是,它引入了創新的「潛在混合專家」(Latent Mixture-of-Experts, LatentMoE)設計。透過在分配任務前先將 Token 壓縮,該模型能以相同的運算成本調用多達 4 倍的專家網路,在處理需要頻繁切換 Python 語法、SQL 邏輯與自然語言的複雜代理任務時,展現出極高的靈活度。
對 Blackwell 最佳化,也是在替 NVIDIA 自己鋪路
Nemotron Super 3 的另一個戰略意義,在於它與 NVIDIA 自家硬體平台的高度綁定。這款模型原生以 NVFP4 4-bit 浮點格式在 Blackwell GPU 上預訓練,而非事後再量化壓縮。NVIDIA 表示,這讓模型在 Blackwell B200 上,相較前一代 Hopper H100 的 FP8 模式,可達到 4 倍推理加速,且不犧牲準確率。
這不只是模型優化問題,也關係到 NVIDIA 的長期定位。根據《WIRED》報導,NVIDIA 計畫在未來五年投入 260 億美元建設開放權重 AI 模型。這意味著它不再滿足於只做晶片與軟體工具,而是試圖進一步成為可以與 OpenAI、Anthropic、DeepSeek 競爭的 AI 模型與生態系玩家。
NVIDIA 生成式 AI 軟體副總裁 Kari Briski 也表示,這些模型不只是對外提供給開發者使用,同時也是 NVIDIA 用來測試、拉高自家硬體、儲存與網路架構能力的重要工具。
開源模型,正成為 AI 產業新戰場
NVIDIA 積極擁抱開源的另一個關鍵驅動力,來自於中國開源模型快速崛起的強大競爭壓力。《WIRED》指出,美國最強的封閉模型仍主要掌握在 OpenAI、Anthropic 與 Google 手中,但近年真正活躍於全球開發者與新創社群中的,往往是來自中國的開放模型,例如 DeepSeek、阿里巴巴的 Qwen、Moonshot AI、MiniMax 等。
這些模型因為權重公開、容易修改、部署彈性高,已成為許多研究者與新創公司建立應用的基礎。對 NVIDIA 而言,如果中國開源模型持續進步,且逐漸採用非 NVIDIA 硬體,長期可能動搖其生態系優勢。尤其市場盛傳 DeepSeek 新一代模型可能完全以華為晶片訓練,若成真,勢必會加劇美中在開源 AI 模型與硬體生態上的競爭。
也因此,Nemotron 不只是產品發布,更像是一種表態:NVIDIA 希望提供一個美國版、可商用、可開發、可部署的開放模型替代方案,回應中國開源模型的快速崛起。透過提供具備頂尖性能且商業友好的美國製開源模型,NVIDIA 不僅確保自身的硬體護城河,更在實質上牽動了中美之間在 AI 發展底層架構上的話語權爭奪。開源 AI 模型戰略,已然成為全球 AI 產業最火熱的新競爭焦點。
*本文開放合作夥伴轉載,資料來源:《WIRED》、《VentureBeat》、《SilisonAngle》、NVIDIA,首圖來源:NVIDIA