請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

財經

GPT-5面世幻覺顯著改善 評論指性能提升有限

商台新聞

更新於 08月09日05:30 • 發布於 08月08日05:36

OpenAI宣布推出新一代旗艦人工智能模型GPT-5,是OpenAI首個"一體化"的AI系統,首次將o系列模型的推理能力,與GPT系列模型快速響應能力相結合。

OpenAI行政總裁奧爾特曼(Sam Altman)在發布會高度評價GPT-5,聲稱是“世界上最好的模型”,相比前代是重大升級,標誌OpenAI向實現通用人工智能(AGI),邁出重要一步。又形容做用GPT-3類似和一個高中生交談,GPT-4相當於大學生,而GPT-5就相當於博士級的專家。

OpenAI指,GPT-5在多項基準測試中表現出色,在編程、數學、健康等領域達到前沿水平。GPT-5在代碼測試中,得到近75%的準確率,略為超過Anthropic星期二發布的新模型Claude Opus 4.1。同時,GPT-5的幻覺問題大幅改善,錯誤信息率僅為4.8%,遠低於前代模型GPT-4o的20.6%。

GPT-5今日開始向所有ChatGPT的免費用戶和訂閱Plus、Pro、Team的付費用戶開放,作為默認模型使用,並於一星期內在Enterprise 和 Edu上線付費方案。免費和付費版的區別在於用量。微軟亦會將GPT-5整合到旗下廣泛的產品組合中,包括Copilot和Azure AI Foundry等平台。

GPT-5在GPT-4發布2年半後,先至面世,但內地《騰訊科技》指,GPT-5性能提升有限,只是在部分基準測試中,少幅領先競爭對手,最大亮點是編程能力顯著增強,和極具競爭力的定價策略,API價格僅為Claude Opus 4.1的1/15。模型幻覺率大幅降低45%,上下文處理能力提升明顯。但新功能乏善可陳,多模態能力仍然是短板,發布會還出現圖表錯誤等問題。

評論指,在能力和評分方面,GPT-5幾乎每一項都有提升,但只比當下SOTA高一點;智力水平方面,在各種主流評測集,GPT-5都高於o3水平,但整體差距並不是非常大,亦都只是稍微高出競爭對手一點,很難說是跨越式的能力提升。

評論指,根據Artificial Analysis的排名,GPT-5目前領先第一,但綜合分僅比o3高2分、比Grok 4僅高1分。GPT-5仍然是一個主要進行文字和圖像理解的模型。不支持音頻輸入/輸出和圖像生成,更加不用說視頻。但GPT-5顯著減少出現幻覺,比 GPT-4o 低約45%,比OpenAI o3 低約80%,對於實際落地應用極其重要。

GPT-5模型的"欺騙"行為亦大幅減少,部分維度上可以減少近90%。上下文的準確率比o3提升接近一倍,意味GPT-5處理長文本的能力,會有比較明顯的強化。寫作方面,GPT-5更有人味,更少AI味。

不過,網友發現發布會上出現"圖表欺詐",一些數據以不成比例的方式展示,以凸顯GPT-5的提升。據Polymarkt的調查,發布會後,網上對OpenAI的模型能力評價一路下滑。評論指,發布會令人看到參數Scaling Law逐漸放緩的跡象,形容容易採摘的果實,已經摘完,未來何時或以何種形式再取得突破,已經變得頗為難測,而能夠確定的是:GPT-5仍遠遠不是AGI。

查看原始文章
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...