請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

性能測試直逼 Deepseek V3、Chat GPT4 地位 阿里雲發佈「通義千問」Qwen2.5-Max

Unwire.hk

發布於 2025年01月31日03:00

中國人工智能(AI)市場競爭日趨激烈,Alibaba 阿里雲於大年初一於微信公眾號發表全新旗艦級大型語言模型「通義千問」旗艦版模型 Qwen2.5-Max,並聲稱其在多項指令模型性能測試中,全面壓倒當前全球最強的開源 Mixture-of-Experts(MoE)模型 DeepSeek V3,以及最大型的開源稠密模型 Llama-3.1-405B。

其團隊指出,這款新一代 AI 模型的預訓練數據超過 20 兆 tokens,並於多個全球權威測試基準中錄得優異成績。在測試 大學程度知識的 MMLU-Pro、程式設計能力的 LiveCodeBench、綜合能力評估的 LiveBench,以及 模擬人類偏好的 Arena-Hard 等評測中,該模型的表現與 OpenAI GPT-4、Anthropic Claude-3.5-Sonnet 及 DeepSeek V3 旗鼓相當,甚至更勝一籌。為進一步驗證 Qwen2.5-Max 的能力,阿里雲將其與 DeepSeek V3、Llama-3.1-405B,以及阿里自家開源的 Qwen2.5-72B 進行對比測試。在 11 項關鍵基準測試 中,Qwen2.5-Max 於所有項目均超越對手,足見其在 AI 領域的技術實力。

據外媒報導指出,阿里雲選擇在農曆新年大多數人在休假期間發表 Qwen2.5-Max,突顯出中國人工智慧(AI)新創公司 DeepSeek 在過去數週急速崛起,不僅對海外競爭對手造成壓力,也使其國內對手壓力大增。

來源: wsj

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

Amazon發布新款電子書Kindle Scribe Colorsoft 11吋可書寫彩色顯示屏

am730

iPhone 17e 最快下月發佈 5 大重點升級預測

流動日報

Claude Opus 4.5 被偷偷「降智」?一個網站告訴你 AI 模型當前可靠性

流動日報
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...