請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

6 週就推新 AI、推論成本砍到 1/35,拆解 OpenAI GPT-5.5 的企業端鎖定戰略

TechOrange 科技報橘

更新於 04月24日12:43 • 發布於 04月24日04:43 • 廖紹伶

OpenAI 向付費用戶推出最新 AI 模型 GPT-5.5 與 GPT-5.5 Pro,距離前一版 GPT-5.4 僅約 6 週時間,反映出前沿 AI 實驗室在爭奪企業客戶上的競爭正在迅速升溫。雖然從命名方式和 OpenAI 執行長奧特曼的公開說法來看,這次或許只是小幅升級,但實際上 GPT-5.5 在整體能力上仍有明顯提升。此外,從 OpenAI 的自我定位來看,AI 競爭的焦點也逐漸轉移,從模型分數轉向企業客戶是否願意持續付費。

根據《VentureBeat》,GPT-5.5 讓 OpenAI 在可公開使用的大型語言模型中重新奪回領先地位,整體表現超越 Anthropic 和 Google 的最新公開模型,甚至在某項基準測試中,略勝 Anthropic 的內部模型 Claude Mythos Preview。

以 AI Agent 能力為核心,朝「實用性」邁進

OpenAI 共同創辦人兼總裁 Greg Brockman 表示,「這個模型真正特別的地方,在於它在更少引導的情況下,能完成更多事情。使用起來更直覺,也能在面對不明確的問題時,自行判斷下一步該怎麼做。」

換言之,OpenAI 模型的更新焦點在於 AI Agent(AI 代理)能力。OpenAI 將 GPT-5.5 定位為對 ChatGPT「日常使用體驗」的優化版本,重點在於提升推理能力、一致性,以及處理更長、更複雜任務的能力。這次升級不再強調炫技,而是回到一個核心問題:使用者是否能真正信任 AI,把任務交給它完成後續執行。

《TechRadar》報導,這種以「實用性」為主軸的定位,也反映出整個 AI 產業的敘事轉變:從過去討論模型理論上能做到什麼,轉向關注它如何融入日常工作流程。

過去的 ChatGPT 雖然能產出亮眼結果,但往往需要精細提示才能維持穩定,多步驟任務容易失控,長對話也可能偏離主題。GPT-5.5 正是針對這些痛點進行優化。模型強化了長鏈推理能力與上下文一致性,並提升工具使用與多模態整合能力,使任務之間的銜接更加流暢。對使用者而言,這代表不再需要反覆修正提示,系統能更快理解意圖,並直接給出可用答案。最關鍵的差異在於「第一次回覆就足夠好」的成功率明顯提高。

Brockman 也強調,GPT-5.5 在程式開發表現尤為突出,同時在更廣泛的電腦操作、科學研究等場景中,也展現出強大能力,特別是在這些原本容易形成效率瓶頸的高智力任務上。

基準測試交鋒:GPT-5.5 在哪個指標反超 Claude Mythos?

就在一週前,Anthropic 才推出 Claude Opus 4.7,並在多項第三方基準測試中登上領先位置;但最新發布的 GPT-5.5 已迅速反超,甚至在 Terminal-Bench 2.0(測試模型在沙箱終端環境中完成任務的能力)中,連同更高階、但受限使用的 Claude Mythos Preview 也一併超越。GPT-5.5 在該測試中達到 82.7% 準確率,高於 Opus 4.7 的 69.4%,也略勝 Mythos Preview 的 82.0%。

不過,在不依賴工具的純推理能力上,競爭仍然激烈。例如在 Humanity’s Last Exam 中,GPT-5.5 Pro 僅得 43.1%,落後 Opus 4.7 的 46.9% 與 Mythos Preview 的 56.8%。這顯示 OpenAI 在電腦操作與代理能力上具有優勢,但在純學術知識與零樣本推理方面,競爭對手仍有領先空間。

根據《VentureBeat》,在可公開使用的模型中,GPT-5.5 在 14 項基準測試中取得最佳表現,相較之下 Opus 4.7 為 4 項、Gemini 3.1 Pro 為 2 項。其優勢主要集中在代理式電腦操作、經濟知識工作(GDPval)、資安應用(CyberGym)與高難度數學(Frontier Math);而 Opus 4.7 則在軟體工程與無工具推理領域領先,Gemini 3.1 Pro 則在學術推理與金融分析等場景表現較佳。

OpenAI 真正參與的競爭

據傳 OpenAI 和 Anthropic 將在今年底前推動 IPO,《implicator.ai》指出,GPT-5.5 顯示,OpenAI 此刻並不是要在單一基準測試上擊敗 Anthropic,而是要在所有關鍵維度上取得優勢,為未來 IPO 談判累積籌碼。

首先是算力。OpenAI 在投資人信中將「算力容量」列為核心優勢。隨著 NVIDIA 新一代晶片導入,GPT-5.5 的推論成本最高可降低至原本的 1/35。對企業財務長而言,這類成本改善遠比模型測試分數更具決策影響力。相較之下,Anthropic 執行長 Dario Amodei 曾公開示警,過度擴張算力在需求不確定下風險極高。報導分析,一方在用資本換取使用者規模,另一方更謹慎地維持利潤結構,而資本市場通常偏好前者。

第二個關鍵是通路,雙方差距也逐漸浮現。ChatGPT 已累積數億用戶,且付費用戶可直接使用 GPT-5.5,進一步鞏固其用戶基礎;而 Claude 的用戶規模相對較小,主要集中於開發者族群。為擴大企業市場,OpenAI 正透過顧問夥伴推動工具導入大型企業,並加大銷售與市場投入。反觀 Anthropic,仍在加速建立通路能力。

《implicator.ai》指出,在這一輪競爭中,OpenAI 並不需要讓 GPT-5.5 在所有基準測試中全面領先,關鍵在於「夠好」,讓原本在不同 AI 供應商之間觀望的企業客戶,有理由採用其服務;另一個核心目標是降低推論成本,讓企業財務部門不再將 AI 視為需反覆審查的高成本項目。同時,持續快速迭代產品,也是為了避免競爭對手 Anthropic 在兩次發布之間重新取得市場話語權。

因此報導分析,決勝點不會是某一次模型發布或單一測試成績,而是企業客戶是否願意續約。未來幾個季度的企業續約情況,將比任何技術宣傳更真實地反映這場 AI 競賽的最終走向。

【推薦閱讀】

AI 資安攻防升級:OpenAI 推 GPT-5.4-Cyber,釋出策略與 Anthropic 出現分歧

Anthropic 不敢全面公開的 AI:Claude Mythos 為何正在重寫網路安全規則?

Sora 剛退場,OpenAI 為何急推 ChatGPT Images 2.0?影像生成正從娛樂內容轉向高價值工作場景

*本文開放合作夥伴轉載,資料來源:《Bloomberg》《Fortune》《VentureBeat》《Techradar》《implicator. ai》OpenAI《AXIOS》,首圖來源:OpenAI

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

黃仁勳喊撿便宜是真的!台股大跌後反彈500點重回4萬4

鏡報
02

台股史詩級崩跌你會加碼嗎?網友答案一面倒

LINE TODAY
03

蘋果WWDC 2026登場!統整「三大亮點」懶人包

民視新聞網
04

比台積電還熱門!「這檔」吸300萬人搶抱 全台破1/5股民都在買

三立新聞網
05

〈台股開盤〉黃仁勳喊「現在可以便宜買股了」反彈逾800點站回44300點

anue鉅亨網
06

昨崩盤今反彈!台股跟著美股走強力修復 ETF教父:市場修正雖劇烈回檔反是長線布局契機

鏡報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...