請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

中國評測機構宣稱中國大模型已正式超越 GPT-4 Turbo,中文表現更好

電腦王阿達

更新於 05月23日03:10 • 發布於 05月23日03:05 • Rocky

這一年很多中國公司都有推出自家的大語言模型,而且一直都會跟 OpenAI 的 GPT 模型比較,過去大多都只是標榜已經快追上 GPT-4,但最近中國權威大模型評測機構公布的最新測試報告顯示,中國國產大模型「日日新 5.0」已經正式超越 GPT-4-Turbo-0125 API,宣稱中文效能更好。

中國評測機構宣稱中國大模型已正式超越 GPT-4 Turbo,中文表現更好

根據商湯公告,中國權威大模型評測機構 SuperCLUE 近日公布了「日日新 5.0(SenseChat V5)」的中文基準測試結果,最終獲得 80.03 的總分,比起 GPT-4-Turbo-0125 的 79.13 分還高,也超越 GPT-4 官網網頁版的 75.32 分:

GPT-4-Turbo-0125 是之前 OpenAI 為了解決 GPT-4 變懶惰所推出的版本,目前最新 GPT-4 Turbo 版本是「GPT-4-Turbo-2024-04-09」。

SuperCLUE 表示,他們的測試內容有多個項目,從理科的計算、邏輯推理、程式碼、工具使用,一直到文科的知識百科、語言理解、長文本、角色扮演、生成與創作、安全都有,總共有 2194 多道題目。

從下圖圖表可以看到,SenseChat V5 在許多方面都表現最好,但寫程式能力明顯落後 GPT-4 很多,也輸 Claude3-Opus,大約跟 Llam03070B-it(poe) 差不多:

而跟其他中國國產模型相比,SenseChat V5 就大獲全勝,每一個分數都遠高於平均水平,特別是在長文本部份。由此可見,這個模型似乎在寫中文文章方面特別強:

SuperCLUE 也有分享提問的問題示範,都是針對簡體中文,因此如果變成其他國家語言,SenseChat V5 表現一定差很多,甚至不支援。

值得注意的是,最近中國大語言模型似乎也開始掀起價格戰,不僅許多 AI 服務的 API 都降價,有些甚至改成永久免費,像是知名科大訊飛就在最近宣布 SPark Lite 全面免費開放,百度智能雲的文心大模型 ENIRE Speed、ENIRE Lite 也一樣變免費 :

雖然中國大語言模型要追上 OpenAI 的 GPT 最新模型看起來還有一大段距離,但隨著中國價格戰開打,越來越多人使用,獲得的訓練數據越大,在簡體中文這塊或許會比想像中還要快超越。

日日新 5.0 更舊版本相比,主要更新亮點在「採用混合專家架構」、「基於超過 10TB tokens 訓練,大量合成數據」、「推理上下文窗口 200K」、「知識、推理、數學、代碼全面對標 GPT-4 Turbo」:

資料來源:商湯

0 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0
reaction icon 0

留言 5

  • 丫賢
    支那人自己用啊!
    05月23日16:37
  • 莊蘭蕙
    裡面應該寫不出自由民主抗議跟白紙運動
    05月23日11:49
  • 顧橙翔🍊
    六四只會有二十四
    06月12日14:51
  • 筱原里森
    用程式評價程式
    05月24日03:52
  • SimonHsu
    這模型不就是大家拿來生鬼故事與言情小說的日日新嗎?🤣
    05月23日06:45
顯示全部