美國要緊張了?百度幫新開源 AI 模型「開天眼」,稱比 GPT-5、Gemini 還強
中國科技巨頭正在加速追趕 AI 競賽,中國最大搜尋引擎公司百度發表了一款全新多模態模型「ERNIE-4.5-VL-28B-A3B-Thinking」,聲稱在多項與視覺相關的基準測試中超越 Google 的 Gemini 與 OpenAI 的 GPT-5,引發社群討論,也讓中美 AI 競賽火力再度升溫。
主打圖像思考、高效運作,讓 AI 學會「看懂世界」
根據《VentureBeat》,百度指出,這款模型的關鍵創新是「圖像思考(Thinking with Images)」,能模仿人類觀察世界的方式,自主放大或縮小圖像細節進行推理,而非傳統上被動接收固定解析度影像。這種動態觀察能力,讓 AI 能更精準地分析技術圖紙、識別生產缺陷或處理複雜文件。
在官方展示的案例中,該模型能解析複雜的交通流量圖表、推算避開高峰的策略,甚至能解出拍照上傳的物理題、辨識畫面中穿西裝戴禮帽的多位人物並以邊界框標出定位。此外,該模型還能在圖像細節中實現縮放聚焦,或當識別出圖像中對象特徵時,調用外部工具來補充回覆資訊,甚至可以分析影片中出現的話並標記時間點。
值得關注的是,百度強調,該模型表現接近業界旗艦模型,但僅啟用約 30 億個參數,卻能達到相當於 280 億參數模型的效能。技術上,它採用「專家混合架構(Mixture of Experts, MoE)」,可根據任務自動啟動部分參數,減少 GPU 計算負擔。根據百度資料,企業可在一張 80GB GPU 上運行該模型,這對缺乏高級伺服器的中小型企業而言,或許是相對有吸引力的方案。
從性能戰到開源戰,要加速企業採用
除了性能與成本優勢,百度此次選擇以 Apache 2.0 開源授權釋出,即開放商業使用、無需支付授權費。相較於部分歐美模型仍限制用途或收取分潤,這項決策被業界視為一種「策略性開源」,意在快速擴大企業採用。
百度並提供開發者完整開發套件 ERNIEKit,支援 Hugging Face、vLLM 與自家 FastDeploy,稱讓部署流程僅需 30 行 Python 程式碼即可完成。
不過,也有觀察者對其「性能超越 GPT-5」的說法持保留態度。因為,目前尚無第三方測試驗證其在實際應用中的穩定度與通用能力。《VentureBeat》就指出,有 X 用戶好奇該模型的競爭優勢是否主要體現在文件和圖表理解等特定案例上,而不是通用的視覺任務。此外,該模型的安全性、偏誤與對抗性輸入的表現也仍待評估。
中國科技巨頭劍指 Google、OpenAI,中美競爭升溫
百度新模型的發表,讓視覺語言模型領域的競爭更加白熱化。這個市場近個月以來,已湧入多個強勢玩家,包括 Google、OpenAI、Anthropic,以及中國的阿里巴巴與字節跳動等企業。
《VentureBeat》稱,如果百度的性能數據能獲得第三方驗證,那將是一項顯著的突破。因為如果百度能以參數量更小、開放性更高的模型,在部分任務上匹敵甚至超越對手,代表其 AI 模型領域的進展可能超越外界預期。
美國仍領先,但中國如何一路緊跟在後?
中國 AI 發展的一舉一動皆受到外界關注。NVIDIA 執行長黃仁勳日前在《金融時報》更直言「中國將贏得 AI 競賽。」他指出,北京放寬監管並補貼資料中心電價,使中國科技公司能以更低能源成本運行本地 AI 晶片。
而《華爾街日報》則揭示,美國雖然仍遙遙領先,擁有最強大的 AI 模型,但中國擁有龐大的高素質工程師、更低的成本,以及國家主導的發展模式,使得發展動作更快。中國自 2024 年起更展開一場「AI 全社會動員戰」,從放寬生成式 AI 審查、補助算力,到推動「國家雲」架構,集中整合數百座資料中心資源。中國政府也鼓勵華為、阿里巴巴等企業發展本土晶片與 AI 模型生態,期望在 2030 年前讓 AI 參與國內 90% 的經濟活動。
這樣的政策組合,使百度等企業在 AI 模型訓練上擁有更彈性的資源動員能力,也解釋了為何中國能在短時間內從 DeepSeek、Qwen 走到如今的 ERNIE 4.5。不過,這款新模型能否真正「超越」 GPT-5 與 Gemini,仍有待全球研究社群驗證。
*本文開放合作夥伴轉載,資料來源:《Venturebeat》、《智東西》、《Financial Times》、《The Wall Street Journal》,首圖來源:AI 工具生成