ChatGPT於2022年12月推出,在這之後。各家語言模型輩出,但哪款才最適合一般用戶日常使用?《華爾街日報》針對5款聊天機器人進行測試,並為各種使用場景的回覆品質排名。
《華爾街日報》針對了ChatGPT、Copilot.Gemini、Claude及Perplexity總共5款聊天機器人,分別就醫療、金融、料理、職場寫作、創意寫作、概要、最新消息、程式以及回應速度等面向進行排名,並且都是使用付費的加強版本。
編輯團隊設計出一系列的提示詞,以測試各個場景的使用結果,並依照其準確度、幫助程度及整體水準來評分,最後給出各個聊天機器人間的排名。
不過他們強調, 這並非科學評估,而是希望反映實際使用這些聊天機器人時得到的回覆。
Perplexity爆冷奪第一
先從結果說起,奪得整體評分第一的並非ChatGPT, 而是由新創公司Perplexity所推出的同名聊天機器人 ,拿下這場「聊天機器人奧運」的金牌。
整體排名的2至5名,則分別是ChatGPT、Gemini、Claude、Copilot。
這並非代表Perplexity在各項領域都碾壓其他對手,不過Perplexity在9項評比中拿下其中3項第一,分別是「概要」、「最新消息」及「程式」。
Perplexity商業長謝維連科(Dmitry Shevelenko)指出,「為讓模型更簡單明瞭,我們調整了模型,這使得Perplexity能辨識出重點。」
雖然Perplexity是整體冠軍,但在「回應速度」方面卻大幅落後ChatGPT、Gemini及Copilot。
Perplexity已晉升獨角獸
Perplexity成立於2022年,員工總數不到40人,打造出了世界上第一個對話式AI搜尋引擎,每月有約1,000萬使用人次。
值得一提的是,Perplexity曾獲得輝達(Nvidia)、亞馬遜(Amazon)創辦人貝佐斯(Jeff Bezos)投資。輝達創辦人黃仁勳曾在今年2月受訪時透露,Perplexit是他最偏好的聊天機器人,並且幾乎每天都會使用。
在今年4月的最新一輪融資中,Perplexity募得了6,300萬美元資金,使得身價一舉超過10億美元,晉升獨角獸的行列。
除上述提到的投資者外,Figma執行長菲爾德(Dylan Field)、Y Combinator執行長陳嘉興(Garry Tan)也都參與了本輪融資。
延伸閱讀:黃仁勳愛用Perplexity AI!Perplexity AI是什麼樣的工具?盤點科技大佬AI小幫手
聊天機器人各有優勢戰場
而在各領域回應中,聊天機器人各有優勢戰場。例如ChatGPT,在醫療、料理、回應速度三項評比中獲得第一。
ChatGPT懂做菜
在料理相關的問答裡,其中一個考題,是在給AI指定特定食材,讓其「發揮創意」製作料理。
《華爾街日報》指出,ChatGPT給出的料理「起司豬肉餡蘋果、羽衣甘藍沙拉、巧克力脆餅」兼具創意及可行性。
Gemini懂遺產
Gemini則在金融領域的問答表現最佳。在測試中,關於利率、退休存款、遺產等問題,評審團隊聲稱Gemini在處理遺產方面的題目回應最好,並且提醒了用戶「在沒有專業人士的指導下,不要急著把錢領出來。」
Claude懂寫文案
而Anthropic旗下聊天機器人Claude,是職場寫作領域的冠軍,題目包括要求機器人寫一篇提示詞工程師的招募文案等。
實際上,Perplexity、Gemini和Claude的表現十分接近,不過Claude藉由一篇宣佈寶寶誕生的公告,以些微差距奪冠。
Copilot,帶來歡樂
雖然微軟的Copilot在多項評比中都是吊車尾,不過創意寫作就是它的舞台了。
在這個評比中,《華爾街日報》給出一堆荒唐的題目要求AI發揮,例如「川普和拜登在路上打架」等,他們聲稱Copilot的回應帶來了許多歡樂。
AI之戰路遙遙,鹿死誰手仍未定
總的來說,這些評比雖然只是一間媒體的內部評分,也一定程度上反應出各個聊天機器人都有自己擅長的領域。
儘管Copilot在這次評分中表現最差,微軟表示他們很快會將OpenAI的最新模型GPT-4o整合進Copilot,提高聊天機器人的能力。
在AI競賽越趨白熱化的情況下,最後誰能成為贏家,或許還很難說。
延伸閱讀:
實測免費版Perplexity、ChatGPT 4o、Claude誰最好用?小編提升工作效率首選它!
全球100大AI工具排行榜!除了ChatGPT,還有哪些必收AI也上榜?
資料來源:華爾街日報、Tom's Hardware、Bloomberg
責任編輯:李先泰
本文不授權轉載
延伸閱讀
AI PC來了!微軟最新武器亮相,PC要回神了嗎?2024開發者大會亮點一次看
有雷!Google AI Overview荒謬答覆頻出爐,遭疑引用網友「玩笑話」當解答
「加入《數位時代》LINE好友,科技新聞不漏接」