請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

不只看圖說故事而已!OpenAI發布o3與o4-mini視覺推理模型,讓AI「以圖思考」

數位時代

更新於 2025年06月04日09:52 • 發布於 2025年04月17日10:32

OpenAI最新推出的o3與o4-mini多模態模型,在視覺感知領域投下震撼彈,首次能夠在思考鏈(chain-of-thought)中運用圖像進行推理,而非僅僅「看見」圖像。

這項創新功能可說徹底改變了AI與視覺內容的互動方式,讓模型從看圖說故事的階段,進階到自行使用網路搜尋、資料分析工具,更深入地理解和解決複雜的圖像資訊。

o3和o4-mini不只會看,還能「解讀」圖像背後意義

根據OpenAI,o3和o4-mini經過特殊訓練,能夠對圖像使用較長的內部思考鏈來形成回應,從而擴展視覺推理能力,也就是在思考過程中直接運用圖像進行推理並給出解答。

這種「以圖像思考」的能力,是透過各種工具包括裁剪、放大、旋轉以及其他的圖像處理技術,來推理用戶上傳的圖像。更重要的是,這些視覺推理能力是原生整合的,不依賴外部專業模型。

o3和o4-mini也能與其他工具協同工作,例如Python程式碼、網路搜尋、圖像生成和ChatGPT中的所有工具等,有效地解決步驟較多的問題。o3和o4-mini模型的視覺推理能力使ChatGPT能夠:

  • 深度分析圖像:模型能夠更全面、準確且可靠地分析圖像內容
  • 無縫結合多種工具:可同時運用高級推理、網路搜尋和圖像處理工具
  • 主動處理圖像:自動縮放、裁剪、翻轉或增強圖像以提取更多訊息
  • 處理不完美圖像:即使從品質不佳的照片中也能抓出有用見解

OpenAI也表示,o3和o4-mini在多種人工考試和ML基準測試中,明顯優於前代模型。

視覺推理如何應用?辨識手寫、找公車時刻表都有戲

OpenAI展示了多種視覺推理應用,用戶能夠以更自然、直觀的方式與ChatGPT互動,以下舉幾個應用例子示範,皆使用o3模型完成:

辨識手寫內容

用戶可以拍攝含有文字的照片提問,無需擔心物體的定位問題。例如,即使照片中的筆記本文字是顛倒的,模型也能識別出「4th February – finish roadmap」的內容。

解決複雜學術問題

模型能夠分析和解決高階的學術問題,例如,含有物理學的量子電動力學(QED)題目照片,它能夠識別費曼圖和相關數學公式,逐一拆解步驟提供詳細解答。

識別公共標誌與資訊

用戶拍攝街道上的公共標誌照片,模型能夠識別上頭的文字字樣,例如「Ochsner URGENT CARE」,即使文字相對模糊或距離較遠。

分析地點與交通資訊

模型能夠識別特定地點,並結合網路搜索、資料查找,提供準確交通訊息,例如,從照片中的公車顏色、看板招牌辨識出「箱根登山公車站」,並透過網路搜尋等工具分析公車時刻表,找到「白天每15-20分鐘一班車」的發車資訊。

解決特殊視覺難題

模型能夠分析並解決視覺難題,例如迷宮問題,透過Python資料分析,自動推理路徑並以紅線標示解謎。

推理事件與地點特徵

能夠分析照片中的學術禮服和場景特徵,藉此確認特定事件,例如,從一張沒有任何文字的照片中,判斷出背景為MIT畢業典禮、畢業生戴著博士生學位的灰色帽子,以及「24」字樣代表為「2024屆」,並以網路搜尋找出MIT在2024年的畢業典禮時程,確定是工程學院在2024年5月29日的畢業典禮。

辨認特定建築與相關資訊

模型能夠根據建築特徵和風格識別地點,提供在該地點拍攝的電影訊息,例如從照片中的紅色紋路欄杆、海岸背景等線索,推測出照片地點為法國里維埃拉的Villa Kérylos,並進一步網路搜尋有哪些電影曾在此地點拍攝過。

軟體與媒體公司《Every》執行長Dan Shipper發布一篇體驗文章,表示自己「已離不開o3了」,他利用o3進行各種研究評測,例如採訪對象研究、預測公司內部會議內容、制定YouTube 播放列表、挖掘書籍細節等,並對o3強大的代理性網路搜尋和視覺推理能力給予高度評價,同時也指出該模型在一些方面仍存在限制:

1. 表格偏好過度

o3的小缺點是它對表格的過度依賴,無論是在回應任何問題時,都傾向於用表格來展示答案。雖然表格能有效地展示訊息,但在某些情況下,過多的表格呈現反而無法清楚解釋。

2. 圖像識別尚未完美

在圖像識別方面,o3仍有改進空間。當使用者要求識別嬰兒車品牌時,o3偶爾會錯誤地將注意力集中在嬰兒車旁的牆壁上,而不是品牌Logo,並且給出了一個看似正確但實際錯誤的答案。然而,經過多次測試,o3模型在三次嘗試中兩次提供了正確答案。

3. 長文件處理仍有瑕疵

o3在處理超長文件檔案時有時會出現幻覺,這是許多 AI 模型的常見問題。此外,當對話持續進行多小時後,o3有時會顯得較為懶散,回應的品質略有下降。

Shipper表示,o3目前的問題其實也沒有比其他模型來得嚴重,且從回應品質上來看,o3整體出錯率反而比較低。隨著未來版本的更新,這些小問題有望得到修正,使 o3 在穩定性和準確性上達到更高水準,進一步提升使用者體驗。

延伸閱讀:吉卜力生圖引爆破圈!奧特曼稱OpenAI用戶「暴增至約8億人」:全球10%的人都在用

資料來源:OpenAI、Every

本文初稿為AI編撰,整理.編輯/ 蘇柔瑋

延伸閱讀

不只輝達H20!超微MI308晶片遭美國列管:得先上繳8億美元,才「有機會」出口中國
AI聊天別太「掏心掏肺」!專家籲:「這5件事」絕不要告訴ChatGPT,小心個資被看光
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

慧洋現金股利3.5元殖利率近5% 藍俊昇「公司幫員工養小孩」月領1萬到小學畢業

CTWANT
02

勞退新制首創30天猶豫期 已22人改一次領

中央通訊社
03

瘋台股更求穩健!逾4成上班族去年靠2種股票獲利 擁380萬資產才感到「安全」

anue鉅亨網
04

破天荒!全家合作黑貓宅急便,羅智先為何點頭拆掉小七超級護城河

商周.com
05

百萬股民關切!中鋼為何改發50元商品卡 董座親自解答

自由電子報
06

解鎖iPhone「超狂隱藏功能」!1秒自動打字 果粉驚:10幾年白用了

三立新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...