Anthropic 領先優勢告急?GPT-5.4 整合多步驟工作流,OpenAI 劍指高階知識工作市場
OpenAI 近日推出 GPT-5.4,不只強調在推理、編碼以及專業工作上的進展,更首度具備「原生電腦操作能力」。
《The Verge》指出,GPT-5.4 可以代表使用者操作電腦,並在不同應用程式之間完成任務,這意味著 OpenAI 想推進的不只是更會回答問題的聊天模型,而是更接近能在軟體與網路環境中執行複雜工作的 AI Agent。這次更新,也被視為 OpenAI 在職場 AI 競賽中的一次重大突破。
為滿足不同層級的需求,這次更新共釋出三種版本:包含一般通用標準版、擅長延長思考與多步驟推理的「GPT-5.4 Thinking」,以及專為極端複雜且高負載任務設計的「GPT-5.4 Pro」模型。
涵蓋 Excel、文件、跨工具操作,GPT-5.4 瞄準知識工作場景
《The Verge》指出,GPT-5.4 最關鍵的突破,在於它是 OpenAI 首個具備「原生電腦操作」(native computer use)能力的通用模型。這代表 GPT-5.4 不再侷限於對話框內的文字生成,而是能代替使用者實際操作電腦,並跨越不同應用程式執行任務。
更具體地說,GPT-5.4 能夠編寫程式碼來操作電腦,並根據螢幕截圖直接發出鍵盤與滑鼠指令。這種原生內建的能力,也意味著開發者在建立自動化流程時,不再需要依賴外掛式的特製代理框架,進一步降低系統整合的複雜度。
為了讓這項能力真正落地,OpenAI 也同步將 GPT-5.4 導入 API、開發者工具 Codex 與 ChatGPT。這凸顯出這次更新已不只是單一產品的功能強化,而是同時面向開發者與一般使用者的整體生態佈局。為了支撐這個生態系,OpenAI 也在 API 與 Codex 中導入高達 100 萬 token 的上下文視窗,讓 AI 代理能在更長的時間跨度中規劃、執行與驗證任務,而不必依賴傳統的檢索式變通方案。
在具體工作場景上,這樣的轉變也已經開始浮現。《Axios》報導,OpenAI 這次除了更新模型,也推出了能讓 ChatGPT 直接在 Excel 與 Google Sheets 中工作的工具。報導指出,OpenAI 將 GPT-5.4 描述為一個更少出錯、更有效率且更適合起草文件的模型。同時,OpenAI 也表示,GPT-5.4 可以用更少的嘗試次數與更少的來回修改來建立檔案,並以更少的 token 解決問題。
此外,GPT-5.4 是與 Microsoft Excel、Google Sheets 的 financial plugins 一起推出,讓這次更新更明確對準知識工作與專業工作場景。這次更新,之所以被視為 OpenAI 在職場 AI 競賽中的一次重大突破,是因為 OpenAI 同步推出可以讓 ChatGPT 直接在 Excel 與 Google Sheets 中工作的工具,直接對 Google 與 Anthropic 施壓。
對 Anthropic 直接出手,GPT-5.4 正面卡位高階知識工作
在快速演進的 AI 功能競賽中,GPT-5.4 的推出讓 OpenAI 得以持續對 Google 與 Anthropic 施壓,特別是在競爭激烈的工作場域。
過去,Anthropic 在企業客戶領域一直占上風,但 OpenAI 這次把 Excel、Google Sheets、文件起草和多步驟工作流全部整合進 GPT-5.4,展現搶占整個企業工作市場的企圖心。
為了深化這項佈局,OpenAI 不僅引進 FactSet、MSCI、Third Bridge 與 Moody’s 等重量級金融數據合作夥伴,試圖將市場資訊與企業內部數據整合進單一工作流,更針對高階知識工作推出可重複使用的「Skills」功能,專門自動處理財報預覽、現金流折現分析(DCF)與投資備忘錄起草等任務。
這項直攻高階知識工作的策略在效能數據上得到印證:在針對初階投資銀行分析師的試算表建模內部基準測試中,GPT-5.4 的平均得分高達 87.5%,遠勝過前一代的 68.4%。此外,GPT-5.4 也在專門評估投行、顧問與企業法務等長期專業任務的 APEX-Agents 基準測試中奪下榜首。
這項直攻高階知識工作的策略,也同時引發市場對傳統 SaaS 軟體與金融數據供應商可能被取代的擔憂,更與 Anthropic 先前推出的金融服務解決方案與 Cowork 外掛形成了正面對決。正因如此,《Fortune》形容 GPT-5.4 是 OpenAI 迄今最強的企業工作模型,同時也是「對 Anthropic 的直接出手」。
GPT-5.4 更接近 AI Agent 平台,但仍要面對 Google 與 Anthropic 夾擊
因此,GPT-5.4 不只是一個「新版本模型」,更是 OpenAI 所描繪「代理化未來」(Agentic Future)的一環,也就是由一組 AI 代理在背景自動運作、完成複雜工作。從這樣的產品設計可以看出,AI 的角色正從「單次回應的聊天機器人」,轉向能夠維持狀態(keeping state)、編排多種工具,並執行多步驟工作流(multi-step workflows)的獨立系統。
GPT-5.4 確實讓 OpenAI 更接近「工作代理」與 AI Agent 平台的方向。OpenAI 指出,GPT-5.4 在網頁瀏覽器操作、工具與 API 調用上都有提升,也更能在多輪互動中持續搜尋多個來源,找出最相關的資訊,更引入原生電腦操作、高達 100 萬 token 的 context window,以及重新設計的 tool-calling system。這些升級都顯示,OpenAI 正把模型從單純的問答工具,推向更能執行複雜任務的工作型 AI。
不過,這場競爭還沒有定局。《The Next Web》指出,GPT-5.4 雖然在桌面電腦操作與專業知識工作任務上看起來占有優勢,但 Google 的 Gemini 3.1 Pro 仍在抽象推理能力的評估上領先,且具備更大的上下文視窗與更低的價格。因此,GPT-5.4 是否真的能擋下 Anthropic 與 Google,仍然沒有定論。
GPT-5.4 確實展現更完整的 Agent 能力,也清楚顯示 OpenAI 正持續朝電腦操作與專業工作應用深入,究竟 OpenAI 能不能靠這一步突破競爭重圍,仍有待市場驗證。
*本文開放合作夥伴轉載,參考資料:《The Verge》、《Axios》、《VentureBeat》、《Fortune》、《The Next Web》、OpenAI,首圖來源:OpenAI