人工智能能否超越人類?OpenAI 用最新推出的 o3 模型給出了答案。這款模型在邏輯推理、數學計算和程式設計等領域展現出驚人的能力,不僅超越了前代技術,更在一些關鍵測試中超越人類平均表現,為人工智能的未來寫下新篇章。
推理能力達新境界
在國際基準測試 ARC-AGI 上,o3 模型以 87.5% 的成績超越了人類平均 85%。這項測試專為考驗邏輯推理能力設計,成功解答意味著 AI 能更加靈活應對未知問題。更令人驚嘆的是,在高難度數學競賽 AIME 中,o3 以 96.7% 的正確率打破多項記錄。對於許多科學家需要花費數天才能解決的問題,o3 可以在幾秒內完成。特別是在 EpochAI Frontier Math 測試中,o3 取得了 25% 的正確率,遠超其他模型不到 2% 的表現。這些問題高度複雜且未公開,進一步證明 o3 不僅能處理現有問題,更為數學研究和未來應用打開新的可能性。
1% 頂尖人類程序員水平
o3 在編程領域同樣令人刮目相看,其性能達到頂尖 1% 的人類程序員水準,尤其在競賽性編程中展現了卓越能力。在 SWE-bench 測試中,o3 憑藉 71.7% 的準確率遠超舊版 o1 的 48.9%。此外,o3 還具備自我檢測和評估的能力,在 GPQ 測試中表現出色,顯示未來實現自我優化的可能性。儘管其自我修正與回饋機制仍在開發,但這樣的能力無疑為未來人工智能的進一步進化奠定了基礎。
o3 mini 更加靈活及節省支出
為滿足不同需求,OpenAI 宣佈將於 2024 年 1 月推出 o3-mini,這是一款更輕量化的模型,雖然規模縮小,但性能依然超越 o1,同時具備更快反應速度和更低運算成本。
o3-mini 的最大亮點是其「靈活推理模式」。用戶可以根據需求選擇「低、中、高」三種推理模式。例如,對簡單問題可以選擇低推理模式,節省時間;對於複雜挑戰則切換至高推理模式,進行更深入的分析。這使得 o3-mini 成為日常應用的不二選擇,無論是教育輔助、數據分析,還是快速生成程式碼,都能輕鬆應對。
更懂得安全 看穿用家隱藏意圖
隨著性能提升,o3 也將安全性放在首位。OpenAI 引入了名為「深思對齊」(Deliberative Alignment)的技術,讓模型能更準確地識別輸入的潛在風險。例如,如果用戶試圖輸入有隱藏意圖的指令,模型能透過邏輯推理識別並防止濫用。
此外,OpenAI 還開放了安全測試計劃,邀請外部研究者參與,確保 o3 能在更廣泛的應用中保持穩定和安全。
o3 生活應用案例
想像一下一位高中生使用 o3 模型解決數學難題,模型不僅能快速給出答案,還能提供每一步的邏輯推理過程,幫助他真正理解概念。企業則可利用 o3-mini 進行即時數據分析,優化業務決策,大幅提高效率。而在未來你的語音助手將不僅能回答問題,還能主動提供最適合你的建議。
隨著 o3-mini 的推出和完整版 o3 的到來,人工智能正在以前所未有的速度融入我們的生活。這場科技革命不僅改變了我們與技術的互動方式,也為未來人類與 AI 的合作樹立了新標準。
• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/