科技

OpenAI發布2款o1系列新模型!推理能力大勝GPT-4o,可解決複雜數學、編碼難題

數位時代
更新於 09月13日03:24 • 發布於 09月13日03:20

OpenAI於9月12日在官網宣布推出代號Strawberry的新一代AI模型系列,正式名稱為OpenAI o1。其為一組強化推理能力的生成式AI,具備科學、數學和編程等領域的複雜任務處理能力。

首批發布的模型包括o1-preview,以及針對代碼生成的o1-mini,現已於ChatGPT及API平台上推出,企業版和教育版用戶下週可獲得存取權限。

廣告(請繼續閱讀本文)

ChatGPT Plus 和 Team 用戶已可在ChatGPT中訪問o1模型,但o1-preview每週可發送30條消息,而o1-mini則為50條,使用上仍有一定限制。

推理能力碾壓GPT-4o,擅長數學與編碼

OpenAI指出,o1系列模型的核心特點是推理能力顯著增強,o1能在回答前花更多時間進行推理,不但能考慮問題的各個部分,更能「思考」並自我檢查,以達到更準確的答案。

廣告(請繼續閱讀本文)

在技術測試中,o1在國際數學奧林匹克資格賽的正確解題率高達83%,前代模型GPT-4o僅為13%。此外,o1在編程競賽平台Codeforces中的表現達到了89百分位,超越了多數參賽者。

據OpenAI測試,o1的數理能力遠超o1 preview跟4o(左);o1編碼能力同樣超群(中);博士等級科學測試甚至更勝人類專家(右)。

安全性方面,OpenAI衡量安全性的方法是測試使用者試圖越獄(繞過安全規則)時,模型將如何繼續遵循安全規則。在最嚴格的越獄測試之一中,GPT-4o得分為22(滿分100),而o1-preview模型得分為84分。

至於適用對象,若使用者欲解決科學、編碼、數學和類似領域的複雜問題,o1的推理能力可能特別有用。例如,醫療研究人員可使用o1來註釋細胞定序數據,物理學家可使用o1來產生量子光學所需的複雜數學公式等等。

推理超群,收費也超群

儘管推理能力大升級,但o1的收費也隨之增加。據OpenAI定價,o1-preview在API中的使用費用為每百萬個輸入token 15美元,輸出token則高達60美元,輸入成本是GPT-4o的3倍(每百萬個輸入 token 5美元),輸出成本則是4倍(每百萬個輸出token 15 美元)。

o1-mini 作為一款速度更快、價格更低的推理模型,相較o1-preview便宜 80%,特別適合需要推理但不需廣泛世界知識的應用場景。OpenAI 表示,o1-mini在準確生成和調試複雜代碼方面表現出色,可與o1-preview 相媲美。

由於目前版本仍在測試階段,o1在ChatGPT中的使用也受到限制,o1-preview每週限30條消息,o1-mini則限50條。模型的部分功能,如瀏覽網頁和文件分析,暫時未開放使用,而其圖像分析功能也因需進一步測試而未開放。

儘管在特定應用中具有優勢,o1仍有局限性。據《Tech Church》報導,模型有時需要超過10秒的時間才能回答問題,且仍可能產生幻覺。OpenAI也指出,o1在部分遊戲如圈圈叉叉(井字棋)中表現不穩定,並且經常不願承認自己無法回答的情況。

延伸閱讀:OpenAI新產品「草莓」將登場!這款新模型曾掀公司大內鬥,為何強到連研究員都害怕?

本文初稿為AI編撰,整理.編輯/ 李先泰

資料來源:《OpenAI》、《Tech Church

延伸閱讀

蘋果耳機大變身!AirPods Pro 2獲FDA批准當助聽器使用,搶攻保健產業480兆大餅!
輝達Blackwell供不應求!黃仁勳:可以轉單給台積電以外廠商,但品質可能降低
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章
留言 1
  • Tien
    喔喔喔喔喔喔
    09月13日12:22
顯示全部