請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

YouTuber AI 模型八大測試比較 GPT-4 與哪個才是最強「生成式 AI」(上)

Unwire.hk

發布於 2024年08月29日04:24

近年人工智能有突破性發展,「生成式 AI」聊天機械人百花齊放,爭相搶佔 AI 主場,而隨著技術進步,AI 聊天機械人亦推陳出新,效能、速度、功能均不斷提升,當中,就以由 Open AI 推出的 ChatGPT 及 Anthropic 推出的 Claude 最為人所熟知,但究竟哪一個 AI 更勝一籌呢?有外國 AI 開發者就設計了八項測試,從「創意寫作」、「圖像描述」、「編碼」、「情感分析」、「回答提問」、「圖像生成」、「對話生成」及「內容概要」,逐一比較 ChatGPT 與 Claude 的表現!

外國 YouTuber 兼 AI 開發者 Partick Storm 早前分析,從八項測試比較 GPT-4 與 Claude 3.5 Sonnet (下稱 Claude 3.5)的能力與表現。Partick 表示,在用以檢視 AI 效能的基準上,Claude 3.5 Sonnet(Claude Sonnet 3.5 為 Claude 的中階模型,但其效能已超越最高效能的 Claude Opus)的表現可說是「怪獸」級別,在各項基準中完勝 GPT-4。當中,Partick 特別提到測試人工智能效能的 GPQA 測試,指在這個博士學位程度專家也只能以 65%、普通人僅能以 34% 成績通過的理解能力測試中,對比 GPT-4 的 53.6% 成績,Claude 3.5 有著亮麗的 59.4% 成績表現,Partick 又指在編碼、多語言數學難度、圖像能力、效能等基準上,Claude 3.5 似乎也技高一籌,為此,Partick Storm 特別設計了八項測試,逐一比較 GPT-4 與 Claude 3.5。

第一回:創意寫作 Claude 3.5 作品引人入勝

第一項測試為「創意寫作」(creative writing),Partick 首先以「撰寫一個 200 字內,與穿越時空、兔仔偵探有關的微型小說」為題,分別要求兩個 AI 回答,結果他指 GPT-4 的故事較平舖直敘,亦缺乏情感表現與對答,內容較沉悶。相反,Claude 3.5 所生成的微型小說卻引人入勝,更能吸引他追看;另外,他亦要求 AI 以「下雨天」為題賦詩,結果 GPT-4 的詩作冗長而沉悶,Claude 3.5 的創作雖僅得八句,卻更能吸引 Partick。最後,Partick 亦要求兩個 AI 以「龍與騎士」為題設計對話,結果 Claude 3.5 表現更佳,能設計出較令人信服、較吸引人的對答。Partick 總結在「創意寫作」的測試上,他認為 Claude 3.5 較 GPT-4 出色。

第二回:圖像描述 GPT-4 更能掌控細節

第二項測試為「圖像描述」(image description),Partick 要求 AI 描述他所提供的圖片內容,其中,GPT-4 與 Claude 3.5 在描述風景照、生物結構圖像上不分上下,唯獨 Partick 要求 AI 解釋一幅「美國前總統奧巴馬在隨從量體重時惡作劇」相片的有趣原因時,GPT-4 能理解並回答趣味在於「奧巴馬在惡作劇」,而 Claude 3.5 卻認為醍醐味在於眾人於更衣室內穿著西裝,顯然反映出 Claude 3.5 未能全然了解圖片內容。因此,在這項「圖像描述」測試中,Partick 認為 GPT-4 表現較佳。

第三回:編碼能力 Claude 3.5 編程簡潔清晰 表現完勝

第三項測試為「編碼能力」(coding),Partick 要求 AI 設計出一個以 HTML CSS 編碼寫成的瀏覽列(navigation bar)。雖然 GPT-4 與 Claude 3.5 同樣提供到編碼,但因 Claude 3.5 有內建的 artifacts 預覽功能,讓用家即時預覽及測試結果,相反,GPT-4 不但未有預覽功能,更只提供 JavaScript 而未有按要求提供 HTML CSS 程式碼,縱使兩者同樣是完成設計,但 Claude 3.5 所編寫的瀏覽列介面在分割、收縮的最終呈現也顯得更穩定,Claude 3.5 明顯更符合要求及更方便用家。
另外,Partick 亦要求兩個 AI 以 JavaScript 生成一個由十秒開始、逐秒倒數的計時器。Partick 指,雖然結果 GPT-4 與 Claude 3.5 的計時器均未能準確地按秒計數,但兩者也完成基本要求,唯獨在詳細觀看程式碼之後,他認為 GPT-4 的程式碼內容重複,甚至有多餘的程式碼,固認為 Claude 3.5 所編的程式碼更簡潔明瞭,表現更佳。

第四回:情感分析 GPT-4 把握較精準

第四項測試是「情感分析」(sentiment analysis),Partick 會給予兩個 AI 特定句子,並要求 GPT-4 與 Claude 3.5 以三個英文單字,歸納句子隱含的情感。其中一題,Partick 以「我本以為這電影是爛片,想不到最後在撒除一些瑕疵後,我意外地喜歡這電影」(So i thought the movie would be terrible, but surprisingly i ended up loving it despite its flaws.)為題,GPT-4 以「令人愉快的驚喜,正面評價」(Pleasantly surprised. Positive)作歸納,Claude 3.5 雖亦以「起初負評,最終正評」(initially negative. ultimately positive)作回應,兩個 AI 歸納的意思也準確,但 Claude 3.5 卻超出三個英文單字的字數要求。

另一題,Partick 提出了「儘管這款手機擁有時尚設計和令人印象深刻的高品質相機,但軟體更新的不一致和電池壽命問題最終掩蓋了我最初的興奮」(Despite the phone's sleek design and impressive camera quality, the inconsistent software updates and battery life issues ultimately overshadowed my initial excitement),結果 GPT-4 與 Claude 3.5 分別以「失望、不滿意、挫敗」及「失望但平衡」來形容,後者的描述有欠準確,因此 Partick 認為在「情感分析」方面,GPT-4 明顯較佳。

在此先作一小結,在四項測試當中,GPT-4 在「圖像描述」、「情感分析」表現更佳,Claude 3.5 則在「創意寫作」、「編程」方面更出色,各擅勝場。下篇我們將繼續分析剩下四項測試,並了解一下 Partick 作為 AI 開發者會選擇哪一個「生成式 AI」。如對 AI 有興趣,亦可選用 AWS 雲端平台,率先試用各款「生成式 AI」。

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

Duolingo 9 個月內市值蒸發超過 80% 將減少對免費用戶「干擾」挽救形象

流動日報

Netflix 退出華納影視收購計劃 Paramount 有望接手影視版圖

流動日報

「惡靈古堡」中的保護傘公司竟對「CUP NOODLES杯麵」提告!?還公開了保護傘拉麵的還原食譜!

Saiga NAK
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...