GPT-5面世幻覺顯著改善評論指性能提升有限

OpenAI宣布推出新一代旗艦人工智能模型GPT-5，是OpenAI首個"一體化"的AI系統，首次將o系列模型的推理能力，與GPT系列模型快速響應能力相結合。

OpenAI行政總裁奧爾特曼(Sam Altman)在發布會高度評價GPT-5，聲稱是“世界上最好的模型”，相比前代是重大升級，標誌OpenAI向實現通用人工智能(AGI)，邁出重要一步。又形容做用GPT-3類似和一個高中生交談，GPT-4相當於大學生，而GPT-5就相當於博士級的專家。

OpenAI指，GPT-5在多項基準測試中表現出色，在編程、數學、健康等領域達到前沿水平。GPT-5在代碼測試中，得到近75%的準確率，略為超過Anthropic星期二發布的新模型Claude Opus 4.1。同時，GPT-5的幻覺問題大幅改善，錯誤信息率僅為4.8%，遠低於前代模型GPT-4o的20.6%。

GPT-5今日開始向所有ChatGPT的免費用戶和訂閱Plus、Pro、Team的付費用戶開放，作為默認模型使用，並於一星期內在Enterprise 和 Edu上線付費方案。免費和付費版的區別在於用量。微軟亦會將GPT-5整合到旗下廣泛的產品組合中，包括Copilot和Azure AI Foundry等平台。

GPT-5在GPT-4發布2年半後，先至面世，但內地《騰訊科技》指，GPT-5性能提升有限，只是在部分基準測試中，少幅領先競爭對手，最大亮點是編程能力顯著增強，和極具競爭力的定價策略，API價格僅為Claude Opus 4.1的1/15。模型幻覺率大幅降低45%，上下文處理能力提升明顯。但新功能乏善可陳，多模態能力仍然是短板，發布會還出現圖表錯誤等問題。

評論指，在能力和評分方面，GPT-5幾乎每一項都有提升，但只比當下SOTA高一點；智力水平方面，在各種主流評測集，GPT-5都高於o3水平，但整體差距並不是非常大，亦都只是稍微高出競爭對手一點，很難說是跨越式的能力提升。

評論指，根據Artificial Analysis的排名，GPT-5目前領先第一，但綜合分僅比o3高2分、比Grok 4僅高1分。GPT-5仍然是一個主要進行文字和圖像理解的模型。不支持音頻輸入/輸出和圖像生成，更加不用說視頻。但GPT-5顯著減少出現幻覺，比 GPT-4o 低約45%，比OpenAI o3 低約80%，對於實際落地應用極其重要。

GPT-5模型的"欺騙"行為亦大幅減少，部分維度上可以減少近90%。上下文的準確率比o3提升接近一倍，意味GPT-5處理長文本的能力，會有比較明顯的強化。寫作方面，GPT-5更有人味，更少AI味。

不過，網友發現發布會上出現"圖表欺詐"，一些數據以不成比例的方式展示，以凸顯GPT-5的提升。據Polymarkt的調查，發布會後，網上對OpenAI的模型能力評價一路下滑。評論指，發布會令人看到參數Scaling Law逐漸放緩的跡象，形容容易採摘的果實，已經摘完，未來何時或以何種形式再取得突破，已經變得頗為難測，而能夠確定的是：GPT-5仍遠遠不是AGI。

請更新您的瀏覽器

財經

商台新聞

請更新您的瀏覽器啟用Javascript

GPT-5面世幻覺顯著改善 評論指性能提升有限

商台新聞

請更新您的瀏覽器

GPT-5面世幻覺顯著改善評論指性能提升有限