請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

性能測試直逼 Deepseek V3、Chat GPT4 地位 阿里雲發佈「通義千問」Qwen2.5-Max

Unwire.hk

發布於 2025年01月31日03:00

中國人工智能(AI)市場競爭日趨激烈,Alibaba 阿里雲於大年初一於微信公眾號發表全新旗艦級大型語言模型「通義千問」旗艦版模型 Qwen2.5-Max,並聲稱其在多項指令模型性能測試中,全面壓倒當前全球最強的開源 Mixture-of-Experts(MoE)模型 DeepSeek V3,以及最大型的開源稠密模型 Llama-3.1-405B。

其團隊指出,這款新一代 AI 模型的預訓練數據超過 20 兆 tokens,並於多個全球權威測試基準中錄得優異成績。在測試 大學程度知識的 MMLU-Pro、程式設計能力的 LiveCodeBench、綜合能力評估的 LiveBench,以及 模擬人類偏好的 Arena-Hard 等評測中,該模型的表現與 OpenAI GPT-4、Anthropic Claude-3.5-Sonnet 及 DeepSeek V3 旗鼓相當,甚至更勝一籌。為進一步驗證 Qwen2.5-Max 的能力,阿里雲將其與 DeepSeek V3、Llama-3.1-405B,以及阿里自家開源的 Qwen2.5-72B 進行對比測試。在 11 項關鍵基準測試 中,Qwen2.5-Max 於所有項目均超越對手,足見其在 AI 領域的技術實力。

據外媒報導指出,阿里雲選擇在農曆新年大多數人在休假期間發表 Qwen2.5-Max,突顯出中國人工智慧(AI)新創公司 DeepSeek 在過去數週急速崛起,不僅對海外競爭對手造成壓力,也使其國內對手壓力大增。

來源: wsj

• 不想錯過新科技 ? 請 Follow unwire.hk FB 專頁http://facebook.com/unwirehk/
• 要入手生活科技潮物 即上 unwire store
https://store.unwire.hk/

「Virtual Boy Nintendo Classics」正式上線!可暢玩!「銀河彈珠台」等7款經典遊戲

Saiga NAK

Apple 宣佈 3 月 4 日舉行特別活動 紐約、倫敦、上海三地同步舉行

流動日報

Apple官宣3月4日舉行特別活動 有機會推出iPhone 17e或新MacBook?

am730
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...