外媒實測 5 大 AI 工具：這款超越 ChatGPT、Gemini 奪第一！黃仁勳也愛用

ChatGPT 推出至今已經一年半，各家語言模型輩出，但哪款才最適合一般用戶日常使用？近日《華爾街日報》針對5款聊天機器人進行測試，並為各種使用場景的回覆品質排名。

《華爾街日報》針對了 ChatGPT、Copilot．Gemini、Claude 及 Perplexity 總共 5 款聊天機器人，分別就醫療、金融、料理、職場寫作、創意寫作、概要、最新消息、程式以及回應速度等面向進行排名，並且都是使用付費的加強版本。

編輯團隊設計出一系列的提示詞，以測試各個場景的使用結果，並依照其準確度、幫助程度及整體水準來評分，最後給出各個聊天機器人間的排名。

不過他們強調， 這並非科學評估，而是希望反映實際使用這些聊天機器人時得到的回覆。

Perplexity 爆冷奪第一

先從結果說起，奪得整體評分第一的並非 ChatGPT， 而是由新創公司 Perplexity 所推出的同名聊天機器人 ，拿下這場「聊天機器人奧運」的金牌。

整體排名的 2 至 5 名，則分別是 ChatGPT、Gemini、Claude、Copilot。

這並非代表 Perplexity 在各項領域都碾壓其他對手，不過 Perplexity 在 9 項評比中拿下其中 3 項第一，分別是「概要」、「最新消息」及「程式」。

Perplexity 商業長謝維連科（Dmitry Shevelenko）指出，「為讓模型更簡單明瞭，我們調整了模型，這使得 Perplexity 能辨識出重點。」

雖然 Perplexity 是整體冠軍，但在「回應速度」方面卻大幅落後 ChatGPT、Gemini 及 Copilot。

Perplexity 成立於 2022 年，員工總數不到 40 人，打造出了世界上第一個對話式 AI 搜尋引擎，每月有約 1,000 萬使用人次。

值得一提的是，Perplexity 曾獲得輝達（Nvidia）、亞馬遜（Amazon）創辦人貝佐斯（Jeff Bezos）投資。輝達創辦人黃仁勳曾在今年 2 月受訪時透露，Perplexity 是他最偏好的聊天機器人，並且幾乎每天都會使用。

在今年 4 月的最新一輪融資中，Perplexity 募得了 6,300 萬美元資金，使得身價一舉超過 10 億美元，晉升獨角獸的行列。

除上述提到的投資者外，Figma 執行長菲爾德（Dylan Field）、Y Combinator 執行長陳嘉興（Garry Tan）也都參與了本輪融資。

而在各領域回應中，聊天機器人各有優勢戰場。例如 ChatGPT，在醫療、料理、回應速度三項評比中獲得第一。

在料理相關的問答裡，其中一個考題，是在給AI指定特定食材，讓其「發揮創意」製作料理。

《華爾街日報》指出，ChatGPT 給出的料理「起司豬肉餡蘋果、羽衣甘藍沙拉、巧克力脆餅」兼具創意及可行性。

Gemini 則在金融領域的問答表現最佳。在測試中，關於利率、退休存款、遺產等問題，評審團隊聲稱 Gemini 在處理遺產方面的題目回應最好，並且提醒了用戶「在沒有專業人士的指導下，不要急著把錢領出來。」

而 Anthropic 旗下聊天機器人 Claude，是職場寫作領域的冠軍，題目包括要求機器人寫一篇提示詞工程師的招募文案等。

實際上，Perplexity、Gemini 和 Claude 的表現十分接近，不過 Claude 藉由一篇宣佈寶寶誕生的公告，以些微差距奪冠。

雖然微軟的 Copilot 在多項評比中都是吊車尾，不過創意寫作就是它的舞台了。

在這個評比中，《華爾街日報》給出一堆荒唐的題目要求 AI 發揮，例如「川普和拜登在路上打架」等，他們聲稱 Copilot 的回應帶來了許多歡樂。

總的來說，這些評比雖然只是一間媒體的內部評分，也一定程度上反應出各個聊天機器人都有自己擅長的領域。

儘管 Copilot 在這次評分中表現最差，微軟表示他們很快會將 OpenAI 的最新模型 GPT-4o 整合進 Copilot，提高聊天機器人的能力。

在 AI 競賽越趨白熱化的情況下，最後誰能成為贏家，或許還很難說。

（本文轉載自《數位時代》）