請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

哪一款AI最會讀書?冠軍「不是ChatGPT」:5款主流AI大PK,只有「它」沒出現幻覺

數位時代

更新於 2025年06月06日00:43 • 發布於 2025年06月05日03:50

重點一:AI閱讀實測中,Claude以無「幻覺」的穩定表現奪冠,ChatGPT緊追在後,但整體AI得分偏低。

重點二:各家AI在文學、法律、科學及政治等不同領域的理解能力參差不齊,表現不一。

重點三:專家認為AI目前尚無法取代人類閱讀,尤其在重要文件處理上,僅能作為輔助工具。

時間來到2025年,生成式AI出現許多主打資料整合的功能,例如Google旗下的Notebook LM,抑或是各家推出的Deep Research功能皆然,其仰賴的都是AI模型的「閱讀能力」,以及輸入資料後的推理能力。

針對當前五款主流AI模型的閱讀能力 ,《華盛頓郵報》的實測結果顯示,由Anthropic公司開發的Claude表現最出色,在總體評分中奪冠,也是唯一未出現「幻覺」(hallucination,指AI捏造資訊)的AI,第二名則是OpenAI旗下的ChatGPT。

先說結論,撇除分數評級的高低,《華盛頓郵報》測試結果顯示,當前AI在深度理解與分析上仍有顯著不足,整體平均得分僅約70%,相當於學術評級中的D+,顯示AI的閱讀理解能力仍有極大進步空間。

AI閱讀各有所長:Claude擅長法律、ChatGPT較懂文學

《華盛頓郵報》本次評估了包含Claude、ChatGPT、Copilot、Meta AI,以及Google的Gemini五款AI。測試範圍涵蓋文學小說、法律合約、醫學研究及政治演說四大領域,並由各領域專家對AI的回答進行盲評,其結果如下:

文學領域:ChatGPT 7.8;Claude 7.3;Meta AI 4.3;Copilot 3.5;Gemini 2.3。
法律領域:Claude 6.9;Gemini 6.1;Copilot 5.4;ChatGPT 5.3;Meta AI 2.6。
健康科學領域:Claude 7.7;ChatGPT 7.2;Copilot 7;Gemini 6.5;Meta AI 6。
政治領域:ChatGPT 7.2;Claude 6.2;Meta AI 5.2;Gemini 5;Copilot 3.7。

總體得分而言:

Claude:69.9
ChatGPT:68.4
Gemini:49.7
Copilot:49
Meta AI:45

總結來說,Claude以些微分差勝過ChatGPT,至於Gemini、Copilot、Meta AI,則落於50分以下評級。值得一提的是,Claude為唯一未產生幻覺的AI。

本次測試的文件,在文學方面為小說《The Jackal’s Mistress》、在醫學方面為COVID-19、帕金森氏症的醫學論文、在法律方面為租賃協議及建築承包合約,在政治領域則為川普的演講文件。

結果顯示,AI在不同專業領域的表現差異甚大。例如,ChatGPT在文學和政治類別中表現較佳,但在法律文件的理解上則落後;Claude則在法律和健康科學領域取得最高分。

然而,即使是表現最好的Claude,其在文學領域的評分也非頂尖,而Gemini在文學理解方面,甚至出現了被評審形容為「不準確、誤導且草率」的解讀,甚至有種企圖矇混過關的感覺。

值得注意的是,除了Claude,其餘四款AI均在測試中出現了程度不一的資訊捏造情況。這證實了AI閱讀長文的能力仍有限,故生成摘要常有遺漏重要資訊,或過度強調正面內容而忽略負面細節的問題。

註1:原文測試時間為2025年4月至5月,所使用的AI版本為:ChatGPT-4o、Gemini 2.0 Flash、Claude 3 Sonnet、Llama 4、Copilot for Microsoft 365。

註2:評審對每個AI答案進行10分制評分,每個學科領域的得分是所有評分的平均值。總分為四個學科領域賦予同等權重,並以100分制呈現。

專家總結:AI難取代真人閱讀

儘管部分AI在特定分析性問題上展現出令人驚豔的能力,例如ChatGPT總結小說的摘要及書評,或是Claude對修訂法律文件提出的建議、協助產出醫學論文的洞察等。但整體而言,專家們對當前AI的閱讀理解能力仍持謹慎態度。

例如參與評審的企業律師Sterling Miller指出,AI在法律文件處理上的表現不夠穩定,尚不能替代專業律師;小說家Chris Bohjalian則表示,AI的回答有時像是「戴著人類面具的機器人」,假裝理解實則不然。

至於主持測試的記者則建議,若要使用AI協助閱讀,最好同時使用至少兩款工具進行比較,並且對於攸關個人權益的重要文件,仍應親自仔細閱讀。

總地來說,AI目前可作為一種輔助工具,例如協助快速掌握新主題、解讀專業術語,但不應完全依賴其結果。

延伸閱讀:中華電信不配被信任?一文解析「Google撤銷憑證」關鍵點:背後隱藏3大管理缺失
補強電商物流的關鍵拼圖:第三方物流是什麼?4大超商取貨戰力、業績一次看

責任編輯:李先泰

本文初稿為AI編撰,整理.編輯/ 李先泰

資料來源:華盛頓郵報

延伸閱讀

【圖解】開源、專屬模型哪個好用?企業「省錢高效」怎麼選?麥肯錫解析一次看
大全聯8/1登場!大潤發啟動會員整合:發幣怎麼換福利點?有哪些回饋?操作教學一次看
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

看好記憶體熱潮有望持續 劉德音斥資2.46億元買進美光挺自家公司

新頭殼
02

好想要財富自由💰台人退休預算大調查:你存到1321萬了嗎

LINE TODAY 討論牆
03

頂客族悲歌!老公死了 超狠小叔分走2千萬房產還這樣做

經濟日報
04

天龍人大逃亡!高房價10年逼走27萬人 專家:一個大安區人口消失了

三立新聞網
05

鄭麗君領軍台美關稅談判 靈魂大功臣還有她

NOWNEWS今日新聞
06

訊號來了!近一年大漲228%還沒完?美光董事劉德音加碼自家股票 

鏡報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...