請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI深度研究實測大PK:ChatGPT、Gemini、Perplexity、Claude,誰是最強報告神器?

數位時代

更新於 2025年08月01日01:49 • 發布於 2025年07月24日02:42

重點一:AI深度研究功能無絕對優劣,Gemini擅長敘事,ChatGPT專精技術,Perplexity重數據,Claude具潛力,使用者應依需求選擇。

重點二:Gemini以近似學術寫作的深度論述與多元輸出格式取勝;ChatGPT則提供專家級的硬體規格與數據分析,但版面閱讀較為吃力。

重點三:Perplexity生成報告迅速,內容聚焦關鍵數據,適合快速查證;Claude論述能力不俗,但文章結構與引用來源仍有待優化。

時間來到2025年下半年,在各家AI模型相繼在去年底推出Deep Research(深度研究)功能後,這項堪稱「報告神器」的功能,在經過大大小小的模型迭代升級後,有變得更厲害嗎?

deep research比較:Gemini、ChatGPT、Perplexity、Claude誰最強?

為了回答這個問題,《數位時代》本次再度實測包括ChatGPT、Gemini、Perplexity以及Claude等主流AI模型,除了看看有哪些新功能外,也要探究在「寫報告」上,哪一家模型更優秀。

要先說明的是,這次測驗的Prompt是 「請幫我研究 Switch 2 的相關資訊,它跟其他主流掌機有什麼差異?」 旨在探究提示詞「意圖相對模糊」的情況下的生成品質。至於模型的選擇則盡量以各家最優秀的推論模型為優先。

此外,由於測試的項目相對單一, 因此結論恐無法推導致所有使用情境 ,讀者仍需注意評測限制。

延伸閱讀:Deep Research怎麼用?GPT、Perplexity、Grok大評測:誰最強?誰CP值最高?

選手1:Gemini,聰明、反應快、應用廣,但堪稱話癆一哥

首先以Google旗下的Gemini來說(使用模型為2.5 Pro),其特色在於,Gemini在投入深度研究之前,會先將研究計畫提交給使用者修改,以避免模糊的提示造成成效不佳的情況。而本次在未經修改研究計畫的情況下,Gemini共花費1分48秒產出結果,算是非常快速。

Gemini的特色是,使用者先可以修改研究架構。

在內容方面,Gemini的生成內容可說是「最接近學術寫作」的格式,在 Switch 2 題目下,它由淺入深的說明任天堂推出新主機的壓力、全球佈局、定價策略、硬體革新等等篇章。必須說的是,Gemini可能是最用心在「論述」的一個AI模型。

舉例而言,在論述 Switch 2 的首發策略與初代不同時,AI會強調它不再依賴單一的「護航神作」(指涉名作《曠野之息》,當初為 ns 1 首發的任天堂本家遊戲);而在引述 Switch 2 與 Steam Deck差異時,AI則描述 Steam Deck 本質是一台「PC」,其次才是一台「遊戲機」;而ASUS ROG Ally 系列時,AI則描述其目標客群是「希望在掌上裝置上獲得不妥協 3A 遊戲體驗的發燒級玩家。

以上的範例是要說明, Gemini的聰明之處在於透過比喻來向讀者描述抽象的「產品定位」。通常來說,這的確會給使用者一種閱讀資料過後的「心得感」,非而僅僅只是顯示機器爬蟲後權重較高的第三方資料。

但必須說,Gemini的深度報告總字數達到12,150字,十分深入,閱讀起來也十分疲累(想看報告全文請點我)。而在可靠性上,Gemini會在每一段後面附上資料來源,在後續查證上還算方便。

在結論部分,Gemini的表現不俗。

Gemini的一大加分項在於,它是所有選手裡面,最支援生成內容再轉化的AI。 在交出報告後,Gemini還可以進一步建立4種輸出格式, 分別是網頁、資訊圖表、測驗,以及語音摘要 ,可應對不同使用者的使用情境。

Gemini的亮點在於,可以將報告再轉化為其他格式。

本次實測,我們先選擇了「網頁」,Gemini的策略是生成網頁形式的分析儀表板,接下來Gemini會秀出程式碼撰寫的過程,在約莫一分鐘後,就會得到一個完整的成果(想看網站請點我)。

Gemini支援將深度報告生成為網站儀表板。

而若選擇「資訊圖表」,則會得到各種數據集成的比較,例如機身重量、價格等等。

深度報告也可以生成資訊圖表。

選手二:ChatGPT,聰明、謹慎、專業,但很嚴肅且動作偏慢

第二個選手是OpenAI旗下的ChatGPT,使用的模型則為o3-pro。 要先強調的是,在所有選手之中,o3-pro是唯二會在輸入提示詞後還會「反問使用者」的模型,其概念類似Gemini的研究計畫,目的都是在釐清使用者的意圖。

而測試時給AI的回覆是「請假設我現在有一筆接近2萬元的預算想要買掌機,但不確定要買哪一台比較好。」

隨後,o3-pro耗時13多分鐘,生成了一篇接近8,000字的報告,並將掌機選手分為效能、價格、遊戲相容性、電池續航、螢幕品質、攜帶性與設計六個面向進行比較,並以2萬元預算提出購買建議。

至於在生成內容方面, 如果說Gemini是聰明的研究生,o3-pro筆法更接近久戰沙場的技術宅。 原因在於,o3-pro相對不會避免引用相對艱澀的術語,例如在描述 Switch 2 硬體規格時,輸出如下:

從紙面規格看,Switch 2 採用了任天堂與 NVIDIA 合作的自訂 SoC,CPU 為 ARM Cortex-A78C 八核心,但為了功耗考量時脈僅約 1 GHz,上世代架構但多核低頻。GPU 部分 Switch 2 躍升到 NVIDIA Ampere 架構,相比初代 Switch 的 Maxwell GPU 提升巨大,擁有 1,536 個 CUDA 核心,在底座模式下可達約 3.1 TFLOPs 理論算力。這相當於介於 PS4 (1.84 TFLOPs) 和 PS4 Pro (4.2 TFLOPs) 之間的級別。

攜帶模式下 Switch 2 GPU 降頻至 ~1.7 TFLOPs,但透過 DLSS (Deep Learning Super Sampling) AI 超解析技術,畫面仍可升頻至高解析度並維持流暢度。NVIDIA 執行長黃仁勳更直言,由於導入最新神經網路渲染技術,Switch 2 效能較前代提升約 10 倍……(想看全文請點我)。

跳到最後的結論來說,o3-pro建議在預算約 2 萬元的條件下,Switch 2、Steam Deck、ASUS ROG Ally 各具優勢,建驗根據遊戲偏好(任天堂經典 vs. PC 大作)、使用習慣(插電長玩 vs. 通勤短玩)以及對系統開放性的需求,選出最適合的掌機,論述表現上算是中肯。

雖然論證過程十分冗長,且專業術語很多,但結論確實十分清爽。

而在資料引用上,確實有在句子後方確實附註,但一大劣勢是每一段的字數都偏多,導致閱讀不易,在排版上有優化空間。

總結而言,Gemini 2.5 Pro 跟 ChatGPT o3-pro 的結論如出一轍, 差別在於Gemini更注重淺顯易懂的描述方式,而o3-pro會直接就數據比較,在理解上可能會更辛苦一點。 同時,o3-pro 目前在深度研究模式下,不會主動生成視覺化圖表。

選手三:Perplexity,快速、乾淨、省話,但有點缺乏誠意

第三位選手則是Perplexity,跟其他選手不同的是,Perplexity定位為AI搜尋引擎,在一般查詢模式可以切換第三方的AI,例如Grok 4等。但在深度研究模式下,僅能使用Perplexity預設的自家模型。

首先從輸出效率來看,Perplexity在1分鐘以內生成了2,500字左右的報告,這是目前所有選手中最短的一篇。

綜觀全文, Perplexity可以說是在「論述」上花最少心力的AI模型,與其就提示詞大作文章(反觀Gemini),Perplexity更專注在呈現乾淨的數據,讓使用者專注在理解事實之上。 這一點可以從生成的文章格式來看,Perplexity率先拋出Switch 2 的發售日期與售價,接著就直奔螢幕尺寸、控制器的規格說明。

Perplexity更注重快速歸納客觀資訊,而不把精力放在論述之上。

在其後的段落,Perplexity可以說用最簡單的篇幅來比較機體差異,例如以下:

在效能比較上,Switch 2的GPU理論效能約比Steam Deck高出53%。Switch 2在《Cyberpunk 2077》等遊戲中展現更清晰的畫質和穩定的40fps以上表現。DLSS技術讓1080p畫質更為銳利,升頻效果優於Steam Deck的FSR技術。

在4K電視輸出方面,Switch 2表現出色,能在4K解析度下維持與手持模式相似的流暢度。反觀>Steam Deck在4K輸出時效能大幅下降,《Cyberpunk 2077》僅能維持30fps左右。

至於結論,Perplexity的表述如下:

Switch 2延續任天堂「即拿即玩」的設計理念,更小巧輕便,適合隨身攜帶。相對地,PC掌機如ROG Ally X雖然效能更強,但體積重量較大,更適合追求極致效能的硬核玩家。

遊戲生態系統是最大差異點。Steam Deck擁有龐大的Steam遊戲庫,支援數萬款遊戲,且經常有特價活動。但Switch 2擁有任天堂獨佔遊戲這個無法取代的優勢,《薩爾達傳說》、《瑪利歐》系列等IP是其他平台永遠無法提供的體驗……(想看全文請點我)。

總結來說, Perplexity的生成結果特別偏向客觀數據導向,也許從而避免了「多說多錯」的機器幻覺風險。在優勢上,更適合希望快速得到數據與事實的用戶,但如果是企圖找到論述新方向的研究生或研究員,可能無法從中找到更多意想不到的論述切角。

至於Perplexity生成的圖表品質,在本次實測中略顯不佳。一個是螢幕尺寸有誤植(但內文是正確的),另一個是主機售價比較優先找了美元價格(未優先選擇用戶所在地的數據),仍具有參考性
,但如果要進一步轉化成素材,還需要進一步請AI修改。

Perplexity生成圖表時,對於Switch 2 的螢幕大小數據有點怪異。

但Perplexity習慣在字句後附上資料來源,由於查證不會太麻煩,尚算資訊可靠性,且由於擅長生成標題、列點及圖表,在資訊吸收上比較有親和力。

值得注意的是,本次測試也拿了一樣問題詢問使用Perplexity的一般搜尋模式(模型用Grok 4),得到的結果雷同,主要差別僅在於沒視覺化圖表。

選手四:Claude,聰明、保守,有潛力但仍待優化

最後一個選手是Claude,這一家在生成程式碼上聲名遠播的公司,在今年4月才推出深度搜尋功能,是目前一線AI模型中相對較晚的競逐者,本次使用的模型則是Claude opus 4。

首先以生成效率來看,Claude的研究功能以約7分20秒的時長,輸出了約3,200字的報告,單純以效率來說不是最佳。 **但值得一提的是,opus 4 是除了 o3-pro以外唯二會反問使用者的模型,其要求釐清「主流掌機」定義,以及性能規格、價格、遊戲陣容、便攜性等等比較面向。 **

claude的opus 4,是唯二會反問使用者的AI模型。

回到以生成品質來看,opus 4 具備了類似Gemeni的比喻能力,例如描述 Switch 2 的效能如下:

Switch 2 更大的 7.9 英寸 LCD 代表了務實的選擇,優先考慮尺寸和解析度而非顯示技術。1080p 面板支援 HDR10 和高達 120Hz 的可變刷新率,為任天堂色彩豐富的第一方遊戲提供出色的清晰度。連接底座時,系統輸出高達 4K 解析度 60fps 或 1440p 120fps,展示了 DLSS 升頻能力。

電源效率的故事更加引人注目。在掌機模式下運行《電馭叛客 2077》,Switch 2 消耗約 8.9W,同時達到 Steam Deck 在 24.5W 時的性能——僅使用 36% 的功率就實現了類似的結果。這種效率直接轉化為電池壽命,分析師估計 Switch 2 的 19-20Wh 電池【傳聞/洩露】可以進行 2.5-3 小時的高負荷遊戲。

claude會標注傳聞訊息,是跟其AI模型的不同之處。

要特別說明的是,opus 4 在論述能力上或可比肩Gemini 2.5 Pro,但文章結構的編排或有改善空間,它並未像 Perplexity 或 o3-pro 等模型擅長列點,大多以文章形式產出,也沒有列表,這導致在部分涉及硬體規格的部分較難以閱讀。

此外,opus 4 本次輸出雖然是以繁體中文提問,但報告結果卻提供英文,而要求將報告翻譯為中文後,就丟失了原先標住在文章內的資料連結。導致後續查證相對困難。

最後以結論來說,opus 4 在總結上相對保守,對於機體定位的描述,以及建議購買的考慮事項, 解釋力稍嫌不足,有點類似自信心不足的研究生。

對於任天堂粉絲來說,Switch 2 代表了明顯的升級,在性能和功能方面有了有意義的改進。尋求多功能性的 PC 玩家會發現 Steam Deck OLED 在 549-649 美元的硬體和軟體成熟度組合很有吸引力。預算靈活的性能愛好者應該考慮 ROG Ally X 或新興的基於英特爾的選項,如 MSI Claw 8 AI+。預算有限的買家選擇 399 美元的 Steam Deck LCD 不會出錯,儘管有更新的替代品,它仍然具有競爭力……(想看全文請點我)。

總評:沒有最強,只有最適合

在經過本次評測後,以下將以廣度(讀取資料的多寡)、深度(論述的產出品質)、可讀性(文章編排的合理性)、可靠性(標注資料來源是否確實),滿分皆為五星,並總結優劣勢來進行評比。

最後要附註的是,本文由於缺乏在Grok平台上使用 Grok 4 的資格,因此本次評測就暫無納入;同時,以下描述的Claude「不附來源」,是提供的方式不易查閱,而不是未提供,特此說明。

延伸閱讀:Deep Research怎麼用?GPT、Perplexity、Grok大評測:誰最強?誰CP值最高?
年薪上看487萬!10大「AI最難取代」高薪職位出爐:不只工程師,這類非理科也超穩

責任編輯:李先泰

本文不開放轉載

延伸閱讀

「大全聯」品牌識別出了什麼問題?從家樂福案例思考:併購後命名該部分保留還是整個換?
日本關稅降至15%!將開放美國車、米、農產品⋯進口,豐田等日本車廠將成最大贏家?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

廣達尾牙登場!林百里:未來3年是AI爆發期

NOWNEWS今日新聞
02

打掃阿姨出來是做身體健康的!年領股息比薪水多…年輕時忍下買包錢,換黃金、股票:老了不怕錢不夠

幸福熟齡 X 今周刊
03

半導體232調查出爐!川普突宣布25%關稅 輝達、超微中槍 台積電影響曝

鏡報
04

全聯、好市多都不敢輕忽的對手!LOPIA 用「肉舖靈魂」與「日味熟食」,站穩台灣超市市場

經理人月刊
05

獨家/想走走不了?四行庫想撤守緬甸、暫喊卡 關鍵原因曝光

經濟日報
06

千萬豪宅竟是「磚頭」? 有房沒現金流「退休族貸款慘遭拒」專家曝銀行真正考量

TVBS
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...