6 週就推新 AI、推論成本砍到 1/35，拆解 OpenAI GPT-5.5 的企業端鎖定戰略

OpenAI 向付費用戶推出最新 AI 模型 GPT-5.5 與 GPT-5.5 Pro，距離前一版 GPT-5.4 僅約 6 週時間，反映出前沿 AI 實驗室在爭奪企業客戶上的競爭正在迅速升溫。雖然從命名方式和 OpenAI 執行長奧特曼的公開說法來看，這次或許只是小幅升級，但實際上 GPT-5.5 在整體能力上仍有明顯提升。此外，從 OpenAI 的自我定位來看，AI 競爭的焦點也逐漸轉移，從模型分數轉向企業客戶是否願意持續付費。

根據《VentureBeat》，GPT-5.5 讓 OpenAI 在可公開使用的大型語言模型中重新奪回領先地位，整體表現超越 Anthropic 和 Google 的最新公開模型，甚至在某項基準測試中，略勝 Anthropic 的內部模型 Claude Mythos Preview。

以 AI Agent 能力為核心，朝「實用性」邁進

OpenAI 共同創辦人兼總裁 Greg Brockman 表示，「這個模型真正特別的地方，在於它在更少引導的情況下，能完成更多事情。使用起來更直覺，也能在面對不明確的問題時，自行判斷下一步該怎麼做。」

換言之，OpenAI 模型的更新焦點在於 AI Agent（AI 代理）能力。OpenAI 將 GPT-5.5 定位為對 ChatGPT「日常使用體驗」的優化版本，重點在於提升推理能力、一致性，以及處理更長、更複雜任務的能力。這次升級不再強調炫技，而是回到一個核心問題：使用者是否能真正信任 AI，把任務交給它完成後續執行。

《TechRadar》報導，這種以「實用性」為主軸的定位，也反映出整個 AI 產業的敘事轉變：從過去討論模型理論上能做到什麼，轉向關注它如何融入日常工作流程。

過去的 ChatGPT 雖然能產出亮眼結果，但往往需要精細提示才能維持穩定，多步驟任務容易失控，長對話也可能偏離主題。GPT-5.5 正是針對這些痛點進行優化。模型強化了長鏈推理能力與上下文一致性，並提升工具使用與多模態整合能力，使任務之間的銜接更加流暢。對使用者而言，這代表不再需要反覆修正提示，系統能更快理解意圖，並直接給出可用答案。最關鍵的差異在於「第一次回覆就足夠好」的成功率明顯提高。

Brockman 也強調，GPT-5.5 在程式開發表現尤為突出，同時在更廣泛的電腦操作、科學研究等場景中，也展現出強大能力，特別是在這些原本容易形成效率瓶頸的高智力任務上。

基準測試交鋒：GPT-5.5 在哪個指標反超 Claude Mythos？

就在一週前，Anthropic 才推出 Claude Opus 4.7，並在多項第三方基準測試中登上領先位置；但最新發布的 GPT-5.5 已迅速反超，甚至在 Terminal-Bench 2.0（測試模型在沙箱終端環境中完成任務的能力）中，連同更高階、但受限使用的 Claude Mythos Preview 也一併超越。GPT-5.5 在該測試中達到 82.7% 準確率，高於 Opus 4.7 的 69.4%，也略勝 Mythos Preview 的 82.0%。

不過，在不依賴工具的純推理能力上，競爭仍然激烈。例如在 Humanity’s Last Exam 中，GPT-5.5 Pro 僅得 43.1%，落後 Opus 4.7 的 46.9% 與 Mythos Preview 的 56.8%。這顯示 OpenAI 在電腦操作與代理能力上具有優勢，但在純學術知識與零樣本推理方面，競爭對手仍有領先空間。

根據《VentureBeat》，在可公開使用的模型中，GPT-5.5 在 14 項基準測試中取得最佳表現，相較之下 Opus 4.7 為 4 項、Gemini 3.1 Pro 為 2 項。其優勢主要集中在代理式電腦操作、經濟知識工作（GDPval）、資安應用（CyberGym）與高難度數學（Frontier Math）；而 Opus 4.7 則在軟體工程與無工具推理領域領先，Gemini 3.1 Pro 則在學術推理與金融分析等場景表現較佳。

OpenAI 真正參與的競爭

據傳 OpenAI 和 Anthropic 將在今年底前推動 IPO，《implicator.ai》指出，GPT-5.5 顯示，OpenAI 此刻並不是要在單一基準測試上擊敗 Anthropic，而是要在所有關鍵維度上取得優勢，為未來 IPO 談判累積籌碼。

首先是算力。OpenAI 在投資人信中將「算力容量」列為核心優勢。隨著 NVIDIA 新一代晶片導入，GPT-5.5 的推論成本最高可降低至原本的 1/35。對企業財務長而言，這類成本改善遠比模型測試分數更具決策影響力。相較之下，Anthropic 執行長 Dario Amodei 曾公開示警，過度擴張算力在需求不確定下風險極高。報導分析，一方在用資本換取使用者規模，另一方更謹慎地維持利潤結構，而資本市場通常偏好前者。

第二個關鍵是通路，雙方差距也逐漸浮現。ChatGPT 已累積數億用戶，且付費用戶可直接使用 GPT-5.5，進一步鞏固其用戶基礎；而 Claude 的用戶規模相對較小，主要集中於開發者族群。為擴大企業市場，OpenAI 正透過顧問夥伴推動工具導入大型企業，並加大銷售與市場投入。反觀 Anthropic，仍在加速建立通路能力。

《implicator.ai》指出，在這一輪競爭中，OpenAI 並不需要讓 GPT-5.5 在所有基準測試中全面領先，關鍵在於「夠好」，讓原本在不同 AI 供應商之間觀望的企業客戶，有理由採用其服務；另一個核心目標是降低推論成本，讓企業財務部門不再將 AI 視為需反覆審查的高成本項目。同時，持續快速迭代產品，也是為了避免競爭對手 Anthropic 在兩次發布之間重新取得市場話語權。

因此報導分析，決勝點不會是某一次模型發布或單一測試成績，而是企業客戶是否願意續約。未來幾個季度的企業續約情況，將比任何技術宣傳更真實地反映這場 AI 競賽的最終走向。

【推薦閱讀】
◆ AI 資安攻防升級：OpenAI 推 GPT-5.4-Cyber，釋出策略與 Anthropic 出現分歧
◆ Anthropic 不敢全面公開的 AI：Claude Mythos 為何正在重寫網路安全規則？
◆ Sora 剛退場，OpenAI 為何急推 ChatGPT Images 2.0？影像生成正從娛樂內容轉向高價值工作場景

＊本文開放合作夥伴轉載，資料來源：《Bloomberg》、《Fortune》、《VentureBeat》、《Techradar》、《implicator. ai》、OpenAI、《AXIOS》，首圖來源：OpenAI

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

請更新您的瀏覽器

理財

TechOrange 科技報橘

以 AI Agent 能力為核心，朝「實用性」邁進

基準測試交鋒：GPT-5.5 在哪個指標反超 Claude Mythos？

OpenAI 真正參與的競爭

更多理財相關文章

黃仁勳喊撿便宜是真的！台股大跌後反彈500點重回4萬4

台股史詩級崩跌你會加碼嗎？網友答案一面倒

蘋果WWDC 2026登場！統整「三大亮點」懶人包

比台積電還熱門！「這檔」吸300萬人搶抱　全台破1/5股民都在買

〈台股開盤〉黃仁勳喊「現在可以便宜買股了」反彈逾800點站回44300點

昨崩盤今反彈！台股跟著美股走強力修復　ETF教父：市場修正雖劇烈回檔反是長線布局契機

請更新您的瀏覽器啟用Javascript

6 週就推新 AI、推論成本砍到 1/35，拆解 OpenAI GPT-5.5 的企業端鎖定戰略

TechOrange 科技報橘

以 AI Agent 能力為核心，朝「實用性」邁進

基準測試交鋒：GPT-5.5 在哪個指標反超 Claude Mythos？

OpenAI 真正參與的競爭

更多理財相關文章

黃仁勳喊撿便宜是真的！台股大跌後反彈500點重回4萬4

台股史詩級崩跌你會加碼嗎？網友答案一面倒

蘋果WWDC 2026登場！統整「三大亮點」懶人包

比台積電還熱門！「這檔」吸300萬人搶抱 全台破1/5股民都在買

〈台股開盤〉黃仁勳喊「現在可以便宜買股了」反彈逾800點站回44300點

昨崩盤今反彈！台股跟著美股走強力修復 ETF教父：市場修正雖劇烈回檔反是長線布局契機

請更新您的瀏覽器

比台積電還熱門！「這檔」吸300萬人搶抱　全台破1/5股民都在買

昨崩盤今反彈！台股跟著美股走強力修復　ETF教父：市場修正雖劇烈回檔反是長線布局契機