哪一款AI最會讀書？冠軍「不是ChatGPT」：5款主流AI大PK，只有「它」沒出現幻覺

重點一：AI閱讀實測中，Claude以無「幻覺」的穩定表現奪冠，ChatGPT緊追在後，但整體AI得分偏低。

重點二：各家AI在文學、法律、科學及政治等不同領域的理解能力參差不齊，表現不一。

重點三：專家認為AI目前尚無法取代人類閱讀，尤其在重要文件處理上，僅能作為輔助工具。

時間來到2025年，生成式AI出現許多主打資料整合的功能，例如Google旗下的Notebook LM，抑或是各家推出的Deep Research功能皆然，其仰賴的都是AI模型的「閱讀能力」，以及輸入資料後的推理能力。

針對當前五款主流AI模型的閱讀能力，《華盛頓郵報》的實測結果顯示，由Anthropic公司開發的Claude表現最出色，在總體評分中奪冠，也是唯一未出現「幻覺」（hallucination，指AI捏造資訊）的AI，第二名則是OpenAI旗下的ChatGPT。

先說結論，撇除分數評級的高低，《華盛頓郵報》測試結果顯示，當前AI在深度理解與分析上仍有顯著不足，整體平均得分僅約70%，相當於學術評級中的D+，顯示AI的閱讀理解能力仍有極大進步空間。

AI閱讀各有所長：Claude擅長法律、ChatGPT較懂文學

《華盛頓郵報》本次評估了包含Claude、ChatGPT、Copilot、Meta AI，以及Google的Gemini五款AI。測試範圍涵蓋文學小說、法律合約、醫學研究及政治演說四大領域，並由各領域專家對AI的回答進行盲評，其結果如下：

文學領域：ChatGPT 7.8；Claude 7.3；Meta AI 4.3；Copilot 3.5；Gemini 2.3。
法律領域：Claude 6.9；Gemini 6.1；Copilot 5.4；ChatGPT 5.3；Meta AI 2.6。
健康科學領域：Claude 7.7；ChatGPT 7.2；Copilot 7；Gemini 6.5；Meta AI 6。
政治領域：ChatGPT 7.2；Claude 6.2；Meta AI 5.2；Gemini 5；Copilot 3.7。

總體得分而言：

Claude：69.9
ChatGPT：68.4
Gemini：49.7
Copilot：49
Meta AI：45

總結來說，Claude以些微分差勝過ChatGPT，至於Gemini、Copilot、Meta AI，則落於50分以下評級。值得一提的是，Claude為唯一未產生幻覺的AI。

本次測試的文件，在文學方面為小說《The Jackal’s Mistress》、在醫學方面為COVID-19、帕金森氏症的醫學論文、在法律方面為租賃協議及建築承包合約，在政治領域則為川普的演講文件。

結果顯示，AI在不同專業領域的表現差異甚大。例如，ChatGPT在文學和政治類別中表現較佳，但在法律文件的理解上則落後；Claude則在法律和健康科學領域取得最高分。

然而，即使是表現最好的Claude，其在文學領域的評分也非頂尖，而Gemini在文學理解方面，甚至出現了被評審形容為「不準確、誤導且草率」的解讀，甚至有種企圖矇混過關的感覺。

值得注意的是，除了Claude，其餘四款AI均在測試中出現了程度不一的資訊捏造情況。這證實了AI閱讀長文的能力仍有限，故生成摘要常有遺漏重要資訊，或過度強調正面內容而忽略負面細節的問題。

註1：原文測試時間為2025年4月至5月，所使用的AI版本為：ChatGPT-4o、Gemini 2.0 Flash、Claude 3 Sonnet、Llama 4、Copilot for Microsoft 365。

註2：評審對每個AI答案進行10分制評分，每個學科領域的得分是所有評分的平均值。總分為四個學科領域賦予同等權重，並以100分制呈現。

專家總結：AI難取代真人閱讀

儘管部分AI在特定分析性問題上展現出令人驚豔的能力，例如ChatGPT總結小說的摘要及書評，或是Claude對修訂法律文件提出的建議、協助產出醫學論文的洞察等。但整體而言，專家們對當前AI的閱讀理解能力仍持謹慎態度。

例如參與評審的企業律師Sterling Miller指出，AI在法律文件處理上的表現不夠穩定，尚不能替代專業律師；小說家Chris Bohjalian則表示，AI的回答有時像是「戴著人類面具的機器人」，假裝理解實則不然。

至於主持測試的記者則建議，若要使用AI協助閱讀，最好同時使用至少兩款工具進行比較，並且對於攸關個人權益的重要文件，仍應親自仔細閱讀。

總地來說，AI目前可作為一種輔助工具，例如協助快速掌握新主題、解讀專業術語，但不應完全依賴其結果。

延伸閱讀：中華電信不配被信任？一文解析「Google撤銷憑證」關鍵點：背後隱藏3大管理缺失
 補強電商物流的關鍵拼圖：第三方物流是什麼？4大超商取貨戰力、業績一次看

責任編輯：李先泰

本文初稿為AI編撰，整理．編輯/ 李先泰

資料來源：華盛頓郵報

請更新您的瀏覽器

理財

數位時代

AI閱讀各有所長：Claude擅長法律、ChatGPT較懂文學

專家總結：AI難取代真人閱讀

更多理財相關文章

當年沒人看好的打工點子竟讓2名高中生8年後翻身「年賺1900萬」

0050成分股大換血倒數！4檔黑馬入列呼聲高　這些「傳產巨頭」恐被剃除

女星抱輝達7年賺翻！她更猛「這檔」報酬率7062.30%

今年ETF績效榜公開「0050意外落榜」專家揭關鍵

工程師年薪965萬沒車、沒電視！他拚30歲存5千萬爽退親揭存錢狠招

群創是低價股？端午到中秋台股有變化？

請更新您的瀏覽器啟用Javascript

哪一款AI最會讀書？冠軍「不是ChatGPT」：5款主流AI大PK，只有「它」沒出現幻覺

數位時代

AI閱讀各有所長：Claude擅長法律、ChatGPT較懂文學

專家總結：AI難取代真人閱讀

更多理財相關文章

當年沒人看好的打工點子 竟讓2名高中生8年後翻身「年賺1900萬」

0050成分股大換血倒數！4檔黑馬入列呼聲高 這些「傳產巨頭」恐被剃除

女星抱輝達7年賺翻！她更猛「這檔」報酬率7062.30%

今年ETF績效榜公開「0050意外落榜」專家揭關鍵

工程師年薪965萬沒車、沒電視！他拚30歲存5千萬爽退親揭存錢狠招

群創是低價股？端午到中秋台股有變化？

請更新您的瀏覽器

當年沒人看好的打工點子竟讓2名高中生8年後翻身「年賺1900萬」

0050成分股大換血倒數！4檔黑馬入列呼聲高　這些「傳產巨頭」恐被剃除