DeepSeek-V4預覽版亮相！百萬字上下文成標配算力、顯存需求大降

圖：Pixabay/Unsplash/Pexel

DeepSeek 全新系列模型 DeepSeek-V4 的預覽版本，周五 (24 日) 正式上線並同步向全球開源。此次發佈象徵著開源模型在推理能力，以及長文本處理領域邁向了新的里程碑。

DeepSeek-V4 系列根據應用場景分為「專家模式」DeepSeek-V4-Pro 與「快速模式」DeepSeek-V4-Flash 兩個版本，全系列皆標配高達 100 萬字的超長上下文處理能力，並提供思考與非思考模式供用戶彈性切換。

在性能評測方面，旗艦級的 DeepSeek-V4-Pro 展現了驚人的知識儲備與邏輯推理實力。根據官方數據，其在世界知識評測中不僅大幅領先所有同類開源模型，表現更直逼頂尖閉源模型 Gemini-Pro-3.1。

在數學、STEM 領域及競賽型代碼測評中，V4-Pro 的成績更是傲視目前已公開的所有開源模型，取得了比肩全球頂級閉源模型的卓越成就。

針對高頻率、高效率需求設計的 DeepSeek-V4-Flash，雖然在世界知識儲備上略遜於 Pro 版本，但其推理能力依然保持在相近的高水準。

得益於更小的模型參數與更精簡的啟動機制，V4-Flash 能夠提供更迅速、更具經濟效益的 API 服務，為開發者與企業應用提供了極具吸引力的選擇。

本次更新最受矚目的亮點之一在於 Agent 能力的飛躍式提升。DeepSeek-V4-Pro 在 Agentic Coding（代理編碼）評測中已達到開源界最佳水平，其在自動化生成簡報（PPT）內頁等任務中表現優異。

據悉，DeepSeek 公司內部已將 V4 作為核心的開發輔助模型。內部員工反饋指出，V4 在程式碼任務與文件生成方面的品質優於市場主流的 Sonnet 4.5，其交付品質已接近 Opus 4.6 的非思考模式，展現了強大的工程實踐價值。

技術層面上，DeepSeek-V4 實現了結構性的創新突破。該模型開創了一種全新的注意力機制，通過在 Token 維度進行有效壓縮，並結合獨家的 DSA（DeepSeek Sparse Attention）稀疏注意力技術，實現了領先全球的長上下文處理能力。

這項技術不僅大幅降低了計算資源與顯存需求，更讓 1M（百萬）級別的上下文處理正式成為 DeepSeek 官方服務的標準配備。

DeepSeek-V4 的開源不僅是技術上的輸出，更展現了該團隊致力於推動 AI 基礎設施普及化的決心。

理財