OpenAI發布2款o1系列新模型！推理能力大勝GPT-4o，可解決複雜數學、編碼難題

OpenAI於9月12日在官網宣布推出代號Strawberry的新一代AI模型系列，正式名稱為OpenAI o1。其為一組強化推理能力的生成式AI，具備科學、數學和編程等領域的複雜任務處理能力。

首批發布的模型包括o1-preview，以及針對代碼生成的o1-mini，現已於ChatGPT及API平台上推出，企業版和教育版用戶下週可獲得存取權限。

ChatGPT Plus 和 Team 用戶已可在ChatGPT中訪問o1模型，但o1-preview每週可發送30條消息，而o1-mini則為50條，使用上仍有一定限制。

推理能力碾壓GPT-4o，擅長數學與編碼

OpenAI指出，o1系列模型的核心特點是推理能力顯著增強，o1能在回答前花更多時間進行推理，不但能考慮問題的各個部分，更能「思考」並自我檢查，以達到更準確的答案。

在技術測試中，o1在國際數學奧林匹克資格賽的正確解題率高達83%，前代模型GPT-4o僅為13%。此外，o1在編程競賽平台Codeforces中的表現達到了89百分位，超越了多數參賽者。

安全性方面，OpenAI衡量安全性的方法是測試使用者試圖越獄（繞過安全規則）時，模型將如何繼續遵循安全規則。在最嚴格的越獄測試之一中，GPT-4o得分為22（滿分100），而o1-preview模型得分為84分。

至於適用對象，若使用者欲解決科學、編碼、數學和類似領域的複雜問題，o1的推理能力可能特別有用。例如，醫療研究人員可使用o1來註釋細胞定序數據，物理學家可使用o1來產生量子光學所需的複雜數學公式等等。

儘管推理能力大升級，但o1的收費也隨之增加。據OpenAI定價，o1-preview在API中的使用費用為每百萬個輸入token 15美元，輸出token則高達60美元，輸入成本是GPT-4o的3倍（每百萬個輸入 token 5美元），輸出成本則是4倍（每百萬個輸出token 15 美元）。

o1-mini 作為一款速度更快、價格更低的推理模型，相較o1-preview便宜 80%，特別適合需要推理但不需廣泛世界知識的應用場景。OpenAI 表示，o1-mini在準確生成和調試複雜代碼方面表現出色，可與o1-preview 相媲美。

由於目前版本仍在測試階段，o1在ChatGPT中的使用也受到限制，o1-preview每週限30條消息，o1-mini則限50條。模型的部分功能，如瀏覽網頁和文件分析，暫時未開放使用，而其圖像分析功能也因需進一步測試而未開放。

儘管在特定應用中具有優勢，o1仍有局限性。據《Tech Church》報導，模型有時需要超過10秒的時間才能回答問題，且仍可能產生幻覺。OpenAI也指出，o1在部分遊戲如圈圈叉叉（井字棋）中表現不穩定，並且經常不願承認自己無法回答的情況。

本文初稿為AI編撰，整理．編輯/ 李先泰

資料來源：《OpenAI》、《Tech Church》