ChatGPT 推出至今已經一年半,各家語言模型輩出,但哪款才最適合一般用戶日常使用?近日《華爾街日報》針對5款聊天機器人進行測試,並為各種使用場景的回覆品質排名。
《華爾街日報》針對了 ChatGPT、Copilot.Gemini、Claude 及 Perplexity 總共 5 款聊天機器人,分別就醫療、金融、料理、職場寫作、創意寫作、概要、最新消息、程式以及回應速度等面向進行排名,並且都是使用付費的加強版本。
編輯團隊設計出一系列的提示詞,以測試各個場景的使用結果,並依照其準確度、幫助程度及整體水準來評分,最後給出各個聊天機器人間的排名。
不過他們強調, 這並非科學評估,而是希望反映實際使用這些聊天機器人時得到的回覆。
Perplexity 爆冷奪第一
先從結果說起,奪得整體評分第一的並非 ChatGPT, 而是由新創公司 Perplexity 所推出的同名聊天機器人 ,拿下這場「聊天機器人奧運」的金牌。
整體排名的 2 至 5 名,則分別是 ChatGPT、Gemini、Claude、Copilot。
這並非代表 Perplexity 在各項領域都碾壓其他對手,不過 Perplexity 在 9 項評比中拿下其中 3 項第一,分別是「概要」、「最新消息」及「程式」。
Perplexity 商業長謝維連科(Dmitry Shevelenko)指出,「為讓模型更簡單明瞭,我們調整了模型,這使得 Perplexity 能辨識出重點。」
雖然 Perplexity 是整體冠軍,但在「回應速度」方面卻大幅落後 ChatGPT、Gemini 及 Copilot。
Perplexity 已晉升獨角獸
Perplexity 成立於 2022 年,員工總數不到 40 人,打造出了世界上第一個對話式 AI 搜尋引擎,每月有約 1,000 萬使用人次。
值得一提的是,Perplexity 曾獲得輝達(Nvidia)、亞馬遜(Amazon)創辦人貝佐斯(Jeff Bezos)投資。輝達創辦人黃仁勳曾在今年 2 月受訪時透露,Perplexity 是他最偏好的聊天機器人,並且幾乎每天都會使用。
在今年 4 月的最新一輪融資中,Perplexity 募得了 6,300 萬美元資金,使得身價一舉超過 10 億美元,晉升獨角獸的行列。
除上述提到的投資者外,Figma 執行長菲爾德(Dylan Field)、Y Combinator 執行長陳嘉興(Garry Tan)也都參與了本輪融資。
聊天機器人各有優勢戰場
而在各領域回應中,聊天機器人各有優勢戰場。例如 ChatGPT,在醫療、料理、回應速度三項評比中獲得第一。
ChatGPT 懂做菜
在料理相關的問答裡,其中一個考題,是在給AI指定特定食材,讓其「發揮創意」製作料理。
《華爾街日報》指出,ChatGPT 給出的料理「起司豬肉餡蘋果、羽衣甘藍沙拉、巧克力脆餅」兼具創意及可行性。
Gemini 懂遺產
Gemini 則在金融領域的問答表現最佳。在測試中,關於利率、退休存款、遺產等問題,評審團隊聲稱 Gemini 在處理遺產方面的題目回應最好,並且提醒了用戶「在沒有專業人士的指導下,不要急著把錢領出來。」
Claude 懂寫文案
而 Anthropic 旗下聊天機器人 Claude,是職場寫作領域的冠軍,題目包括要求機器人寫一篇提示詞工程師的招募文案等。
實際上,Perplexity、Gemini 和 Claude 的表現十分接近,不過 Claude 藉由一篇宣佈寶寶誕生的公告,以些微差距奪冠。
Copilot,帶來歡樂
雖然微軟的 Copilot 在多項評比中都是吊車尾,不過創意寫作就是它的舞台了。
在這個評比中,《華爾街日報》給出一堆荒唐的題目要求 AI 發揮,例如「川普和拜登在路上打架」等,他們聲稱 Copilot 的回應帶來了許多歡樂。
AI 之戰路遙遙,鹿死誰手仍未定
總的來說,這些評比雖然只是一間媒體的內部評分,也一定程度上反應出各個聊天機器人都有自己擅長的領域。
儘管 Copilot 在這次評分中表現最差,微軟表示他們很快會將 OpenAI 的最新模型 GPT-4o 整合進 Copilot,提高聊天機器人的能力。
在 AI 競賽越趨白熱化的情況下,最後誰能成為贏家,或許還很難說。
資料來源:華爾街日報、Tom's Hardware、Bloomberg
(本文轉載自《數位時代》)
延伸閱讀
未來行銷和銷售將合而為一!AI 發展將對行銷領域帶來哪些顛覆性影響?
導入 AI 解方,供應鏈不「斷鏈」!不只能降低風險,還能幫你找到潛在供應商
生成式 AI 進軍警界!台美警察機關雙雙採用,最多減少 40% 的工作時間
留言 0