請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

百萬上下文成關鍵!DeepSeek V4問世:不拼分數拼架構 AI競賽進入新時代

anue鉅亨網

更新於 04月25日04:00 • 發布於 04月25日04:00
圖:Pixabay/Unsplash/Pexel

DeepSeek 最新一代大模型 DeepSeek V4 正式發布,儘管在公開 Benchmark 指標上僅大致追平國際上一代旗艦模型,但其技術報告顯示,該模型在多項底層架構與訓練方法上出現顛覆性突破,正試圖改寫當前大型語言模型發展路徑。

綜合近期產業分析與技術報告,DeepSeek V4 不僅在長上下文、後訓練機制與模型穩定性上提出新範式,也反映出全球 AI 競爭正從單純比拼 Benchmark,轉向底層效率與可擴展能力的較量。

在性能表現上,DeepSeek V4-Pro-Max 僅略微領先當前主流開源模型,並高於部分既有模型如 GPT-5.2 與 Gemini-3.0-Pro,但仍落後於更新一代的 GPT-5.4 與 Gemini-3.1-Pro,差距約落在 3 至 6 個月。不過在特定測試中,V4 已展現競爭力,例如在 Codeforces 編程競賽評分達到 3206 分,追平頂級閉源模型;在百萬 token 長上下文檢索測試中,甚至超越部分競品模型。

業界普遍認為,DeepSeek V4 的核心突破並不在於分數,而在於其對「長上下文」的重新定義。該模型透過 CSA 與 HCA 混合注意力機制,將原本可能高達百萬字的輸入壓縮至不到 8000 個語義單位,使推理計算量降至前一代的 27%,顯存占用更僅約 10%。在更輕量版本中,計算量甚至降至 10%、顯存 7%。這種「直接壓縮序列長度」的策略,被視為解決 AI 算力瓶頸的關鍵路線之一。

此外,DeepSeek V4 引入「交錯式思考」(Interleaved Thinking)框架,使模型在多輪工具調用與複雜任務中能保留推理歷史,避免上下文斷裂。分析指出,這一設計讓長上下文不再只是「能裝更多文字」,而是轉化為 AI Agent 的長期工作記憶,對自動化任務與智能體應用具有關鍵意義。

在後訓練方法上,DeepSeek 亦對現行主流強化學習流程提出修正。透過 OPD(On-Policy Distillation)整合多領域專家模型,並搭配全詞表蒸餾技術,使模型能在不同能力間維持高水準而不互相干擾。同時引入 GRM(生成式獎勵模型),提升對主觀任務的評估能力,降低過去常見的「獎勵作弊」問題。數據顯示,在涵蓋金融、法律與教育等 13 個產業任務中,V4-Pro-Max 對標頂級模型取得 63% 的不敗率;中文寫作勝率達 62.7%,創意寫作指標更高達 77.5%。

另一項關鍵創新為 mHC(Manifold-Constrained Hyper-Connections),透過對殘差連接施加數學約束,解決深層神經網路中長期存在的梯度爆炸與信息衰減問題。這使模型能在超過 60 層深度下仍維持穩定訓練,同時大幅提升訊息傳遞效率。DeepSeek 指出,在僅 49B 啟動參數下,其推理能力已接近更高參數量級模型。

工程層面上,DeepSeek V4 亦進一步優化訓練效率,包括導入 Muon 優化器並解決其在分散式訓練中的部署難題,提升梯度更新一致性;透過 MoE 融合算子(Fusion Kernel)將多步運算整合為單一流程,使訓練速度提升約 1.92 倍;並導入 FP4 量化訓練,大幅降低顯存需求與運算成本。官方數據顯示,mHC 帶來的額外時間開銷僅占整體訓練的 6.7%,顯示其在效率與穩定性間取得平衡。

市場觀察指出,DeepSeek V4 的推出,正值全球 AI 競爭升溫之際。此前已有報導指出,包括 OpenAI、Google(旗下 Gemini)等企業持續加大投入,而中國方面則由 DeepSeek、Moonshot AI、MiniMax、Alibaba(通義千問)等形成多線競爭格局。分析認為,當前產業已從「模型大小與分數競賽」,轉向「計算效率、長上下文與智能體能力」的全面競爭。

整體而言,DeepSeek V4 顯示,大模型發展正進入新階段。相較於過去追求單點性能突破,業界正轉向系統性工程與底層架構創新。隨著長上下文與智能體應用需求快速上升,誰能在效率與穩定性上取得突破,將成為下一輪競爭的關鍵。

更多鉅亨報導

點我加鉅亨網LINE好友🔥財經大事不漏接

查看原始文章

更多理財相關文章

01

中國封殺竟神助攻!日本扇貝出口暴增3成 906億驚人成績單曝光

三立新聞網
02

國泰世華銀前董座郭明鑑6點聲明 回應兼職爭議:始料未及之事

鏡週刊
03

台股7月將崩盤?命理師曝「這1人」成最大關鍵

民視新聞網
04

領獎倒數7天!今年1-2月期統一發票「87510041」千萬獎還有4張未領 最低只花2元

太報
05

台股狂飆「國巨」V拉漲停!謝金河看好「另一支千金股」

民視新聞網
06

PChome旗下「Pi錢包」證實遭駭客勒索 暗網稱獲102GB資料

台視
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...