中國評測機構宣稱中國大模型已正式超越 GPT-4 Turbo，中文表現更好

這一年很多中國公司都有推出自家的大語言模型，而且一直都會跟 OpenAI 的 GPT 模型比較，過去大多都只是標榜已經快追上 GPT-4，但最近中國權威大模型評測機構公布的最新測試報告顯示，中國國產大模型「日日新 5.0」已經正式超越 GPT-4-Turbo-0125 API，宣稱中文效能更好。

根據商湯公告，中國權威大模型評測機構 SuperCLUE 近日公布了「日日新 5.0（SenseChat V5）」的中文基準測試結果，最終獲得 80.03 的總分，比起 GPT-4-Turbo-0125 的 79.13 分還高，也超越 GPT-4 官網網頁版的 75.32 分：

GPT-4-Turbo-0125 是之前 OpenAI 為了解決 GPT-4 變懶惰所推出的版本，目前最新 GPT-4 Turbo 版本是「GPT-4-Turbo-2024-04-09」。

SuperCLUE 表示，他們的測試內容有多個項目，從理科的計算、邏輯推理、程式碼、工具使用，一直到文科的知識百科、語言理解、長文本、角色扮演、生成與創作、安全都有，總共有 2194 多道題目。

從下圖圖表可以看到，SenseChat V5 在許多方面都表現最好，但寫程式能力明顯落後 GPT-4 很多，也輸 Claude3-Opus，大約跟 Llam03070B-it(poe) 差不多：

而跟其他中國國產模型相比，SenseChat V5 就大獲全勝，每一個分數都遠高於平均水平，特別是在長文本部份。由此可見，這個模型似乎在寫中文文章方面特別強：

SuperCLUE 也有分享提問的問題示範，都是針對簡體中文，因此如果變成其他國家語言，SenseChat V5 表現一定差很多，甚至不支援。

值得注意的是，最近中國大語言模型似乎也開始掀起價格戰，不僅許多 AI 服務的 API 都降價，有些甚至改成永久免費，像是知名科大訊飛就在最近宣布 SPark Lite 全面免費開放，百度智能雲的文心大模型 ENIRE Speed、ENIRE Lite 也一樣變免費：

雖然中國大語言模型要追上 OpenAI 的 GPT 最新模型看起來還有一大段距離，但隨著中國價格戰開打，越來越多人使用，獲得的訓練數據越大，在簡體中文這塊或許會比想像中還要快超越。

日日新 5.0 更舊版本相比，主要更新亮點在「採用混合專家架構」、「基於超過 10TB tokens 訓練，大量合成數據」、「推理上下文窗口 200K」、「知識、推理、數學、代碼全面對標 GPT-4 Turbo」：

科技