科技

OpenAI o1 新模型會「思考」,可解決編碼和數學難題、計費更貴

科技新報
更新於 09月13日11:11 • 發布於 09月13日08:01

傳聞的「Strawberry」(草莓)專案正式亮相,OpenAI 12 日發表全新大型語言模型 o1,以及更有效率、更適合開發者的 o1-mini 版本,ChatGPT 付費用戶優先使用。OpenAI 形容 o1 是一個給出最終答案之前會進行思考的模型,可解決如科學、數學、編碼方面更困難的問題。

o1 避免掉一些會困擾生成式 AI 運作的推理陷阱,花更多時間考慮問題的所有面向。據 OpenAI 稱,o1 與其他 AI 模型不同之處,在於它回應問題前的「思考」能力。類似人類在回答難題之前可能會思考很長時間,o1 嘗試解決問題時使用 Chain of Thought(CoT)。

廣告(請繼續閱讀本文)

「o1 接受強化學習訓練」,OpenAI 研究科學家 Noam Brown 在 X 說道,「透過私有 Chain of Thought 在做出反應前會『思考』,思考的時間越長,推理任務的表現越好」。他形容 o1 接受訓練下,當出現正確答案會獎勵 o1,沒有出現正確答案則會懲罰。OpenAI 使用新的演算法,以及包含專門為推理任務量身打造的「推理資料」和科學文獻做為訓練資料集。

以國際數學奧林匹亞競賽(International Mathematical Olympiad,IMO)試題進行測試,OpenAI 宣稱 o1 正確解決 83% 的問題,而 GPT-4o 模型只解決 13%。此外,在稱為 Codeforces 的線上程式設計挑戰賽,o1 勝過 89% 競爭對手,也比 Google DeepMind 的 AlphaCode 2 模型表現更好。

廣告(請繼續閱讀本文)

▲ 與 GPT-4o 相比,o1 在多項基準測試有更好的表現。(Source:OpenAI

綜合來看,OpenAI 稱 o1 在資料分析、科學問題、編碼方面可表現得更好。像是 GitHub Copilot 測試支援 o1,GitHub 團隊認為 o1 確實擅長最佳化演算法和 App 程式碼。根據 OpenAI 進行基準測試,o1 在多語言技能方面比 GPT-4o 有所改進,尤其像是面對阿拉伯語和韓語等。

o1 並非GPT-4o 的下一代產品,而是對 GPT-4o 加以補充。OpenAI 技術長 Mira Murati 告訴外媒 Wired,OpenAI 正在打造下一代模型 GPT-5,比過往模型大更多。

o1 現階段不夠完美

目前 ChatGPT Plus 或 ChatGPT Team 的付費用戶已能選用 o1,企業版和教育版用戶下週可獲得存取權限。OpenAI 計劃未來向所有 ChatGPT 免費用戶支援 o1-mini,尚未確定開放時程。

但要注意的是,支援 o1 的 ChatGPT 目前有使用限制。與 GPT-4o 相比,o1 還無法瀏覽網頁或分析文件,儘管 o1 有圖像分析功能但未開放,仍在進行更多測試。o1 預覽版每週限制為 30 次訊息提問,o1-mini 每週則限 50 次。

不只如此,o1 價格非常昂貴。透過 API 定出 o1 預覽版價格為每百萬個輸入 token 收費 15 美元,每百萬個輸出 token 收費 60 美元。與 GPT-4o 相比,o1 輸入成本是 GPT-4o的 3 倍(每百萬個輸入 token 5 美元),輸出成本則是 4 倍(每百萬個輸出 token 15 美元)。

隨著 OpenAI 發表 o1,可以想像競爭對手很快就會效仿推出類似版本。OpenAI 真正考驗是讓 o1 使用上更廣泛,而且計費更便宜。

(首圖來源:OpenAI

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章