請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

DeepSeek-R1 模型升級新版本,推理能力接近 o3、Gemini 2.5 Pro

科技新報

更新於 2025年05月30日07:13 • 發布於 2025年05月30日07:44

中國 DeepSeek(深度求索)釋出 DeepSeek-R1-0528 模型新版本,使其免費開源模型在推理能力能與 OpenAI o3、Google Gemini 2.5 Pro 等付費專有模型並駕齊驅。

DeepSeek-R1-0528 以 2024 年 12 月發表的 DeepSeek-V3-Base 為基礎,在後訓練(Post-Training)過程投入更多算力,提升新版模型思考深度與推理能力,有助於提升數學、科學、商業及程式設計等複雜推理任務上的表現。

DeepSeek-R1-0528 在數學、程式設計及通用邏輯等多個基準測試取得優異成績,並在整體表現上接近如 OpenAI o3、Google Gemini 2.5 Pro。

相較於舊版 DeepSeek-R1,新版模型在複雜推理任務的表現有所提升。例如 AIME 2025 測試,因推理過程中加強思考深度,新版模型準確率由舊版的 70% 提升至 87.5%。

同時,DeepSeek 蒸餾 DeepSeek-R1-0528 的 CoT(Chain of Thought)後訓練 Qwen3-8B Base,得到了 DeepSeek-R1-0528-Qwen3-8B。這款 8B 模型在數學測驗 AIME 2024 僅次於 DeepSeek-R1-0528、超越 Qwen3-8B,並與 Qwen3-235B 相當。DeepSeek 認為,DeepSeek-R1-0528 的 CoT 對於學術界推理模型的研究和工業界針對小模型的發展皆具意義。

▲ DeepSeek 釋出 DeepSeek-R1-0528 新版本。

與先前版本相同,DeepSeek-R1-0528 採用 MIT 授權條款,並上傳至開源機器學習社群平台 Hugging Face,開發者能夠自由修改甚至進行商業部署。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

吃飯捕獲野生魏哲家!親民合照:常來就會遇到我

自由電子報
02

不買房、不存錢,只買快樂?年輕世代的消費選擇掀論戰

LINE TODAY 討論牆
03

金龍海嘯遇土方之亂!5建商破產 老董崩潰:還有一波倒閉潮

EBC 東森新聞
04

兩兒接班不如預期!「老乾媽」辣椒醬創辦人重返第一線 救回營收衝245億

太報
05

北屯新案下殺3字頭「單坪現砍20萬!」 破盤價搶便宜…專家曝「這些條款」要留心

5168實價登錄比價王
06

法說會前台積電熄火 台達電、廣達、鴻海撐大盤 台股上漲約100點

鏡報
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 1

留言功能已停止提供服務。試試全新的「引用」功能來留下你的想法。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...