Deepseek OCR 2 提升文件解析能力　效能超越 Gemini 3 Pro 並減少 80% Token 使用量

2026 年，Deepseek 推出全新視覺編碼器 Deepseek OCR 2，徹底改變了傳統視覺語言模型由左至右、由上而下的處理模式。這項技術模仿人類觀察事物的靈活模式，根據內容含義重新排列影像資訊，大幅優化了文件解析的精準度與效率。透過更具彈性的處理方式，Deepseek 成功克服了舊有模型在處理複雜佈局影像時的侷限性。

DeepEncoder V2 模仿人類視覺邏輯提升理解力

Deepseek OCR 2 的技術核心在於 DeepEncoder V2，該架構將傳統的 CLIP 組件替換為基於 Qwen2 0.5B 的小型語言模型。研究團隊引入了「因果流 Token」，這些可學習的查詢 Token 能夠在語言模型進行解讀之前，先根據上下文重新組織視覺資訊。這種兩階段的處理流程讓系統能真正理解二維影像內容，而非僅僅是機械式的像素掃描，顯著提升了對複雜文件的認知能力。

Token 使用量驟降 80% 且解析效能超越 Gemini 3 Pro

在效能表現方面，Deepseek OCR 2 展示了驚人的運算效率。相比同類模型動輒需要 6,000 個以上的 Token，該模型僅需 256 至 1,120 個視覺 Token 即可完成處理，大幅降低了計算負擔。根據 OmniDocBench v1.5 測試，該模型整體得分達 91.09%，在文件解析任務中的表現甚至超越了擁有相似 Token 預算的 Gemini 3 Pro，並有效減少了文字重複生成的錯誤率。

開源架構推動統一多模態處理技術發展

儘管在處理高密度文字的報紙頁面時仍有提升空間，但研究團隊認為 DeepEncoder V2 是邁向標準化多模態處理的重要進展。未來此架構有望統一處理文字、語音與影像，實現真正的多維度內容理解。目前 Deepseek OCR 2 的代碼與模型權重已於 GitHub 與 Hugging Face 全面發佈，為產業提供了更具效率的 AI 工具，協助大規模生成高品質的訓練數據集。

NewMobileLife 網站：https://www.newmobilelife.com

請更新您的瀏覽器

科技

流動日報

DeepEncoder V2 模仿人類視覺邏輯提升理解力

Token 使用量驟降 80% 且解析效能超越 Gemini 3 Pro

開源架構推動統一多模態處理技術發展

查看更多

OpenAI 計劃 2026 年底上市　憂心 Anthropic 搶先掛牌

Microsoft 測試 Windows 11 頂部選單列　強化介面自定義與工具存取

Google Maps 語音導航升級　支援步行與單車模式使用 Gemini

請更新您的瀏覽器啟用Javascript

Deepseek OCR 2 提升文件解析能力 效能超越 Gemini 3 Pro 並減少 80% Token 使用量

流動日報

DeepEncoder V2 模仿人類視覺邏輯提升理解力

Token 使用量驟降 80% 且解析效能超越 Gemini 3 Pro

開源架構推動統一多模態處理技術發展

查看更多

OpenAI 計劃 2026 年底上市 憂心 Anthropic 搶先掛牌

Microsoft 測試 Windows 11 頂部選單列 強化介面自定義與工具存取

Google Maps 語音導航升級 支援步行與單車模式使用 Gemini

請更新您的瀏覽器

Deepseek OCR 2 提升文件解析能力　效能超越 Gemini 3 Pro 並減少 80% Token 使用量

OpenAI 計劃 2026 年底上市　憂心 Anthropic 搶先掛牌

Microsoft 測試 Windows 11 頂部選單列　強化介面自定義與工具存取

Google Maps 語音導航升級　支援步行與單車模式使用 Gemini