請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Deepseek OCR 2 提升文件解析能力 效能超越 Gemini 3 Pro 並減少 80% Token 使用量

流動日報

更新於 8分鐘前 • 發布於 2天前 • NewMobileLife

2026 年,Deepseek 推出全新視覺編碼器 Deepseek OCR 2,徹底改變了傳統視覺語言模型由左至右、由上而下的處理模式。這項技術模仿人類觀察事物的靈活模式,根據內容含義重新排列影像資訊,大幅優化了文件解析的精準度與效率。透過更具彈性的處理方式,Deepseek 成功克服了舊有模型在處理複雜佈局影像時的侷限性。

DeepEncoder V2 模仿人類視覺邏輯提升理解力

Deepseek OCR 2 的技術核心在於 DeepEncoder V2,該架構將傳統的 CLIP 組件替換為基於 Qwen2 0.5B 的小型語言模型。研究團隊引入了「因果流 Token」,這些可學習的查詢 Token 能夠在語言模型進行解讀之前,先根據上下文重新組織視覺資訊。這種兩階段的處理流程讓系統能真正理解二維影像內容,而非僅僅是機械式的像素掃描,顯著提升了對複雜文件的認知能力。

Token 使用量驟降 80% 且解析效能超越 Gemini 3 Pro

在效能表現方面,Deepseek OCR 2 展示了驚人的運算效率。相比同類模型動輒需要 6,000 個以上的 Token,該模型僅需 256 至 1,120 個視覺 Token 即可完成處理,大幅降低了計算負擔。根據 OmniDocBench v1.5 測試,該模型整體得分達 91.09%,在文件解析任務中的表現甚至超越了擁有相似 Token 預算的 Gemini 3 Pro,並有效減少了文字重複生成的錯誤率。

開源架構推動統一多模態處理技術發展

儘管在處理高密度文字的報紙頁面時仍有提升空間,但研究團隊認為 DeepEncoder V2 是邁向標準化多模態處理的重要進展。未來此架構有望統一處理文字、語音與影像,實現真正的多維度內容理解。目前 Deepseek OCR 2 的代碼與模型權重已於 GitHub 與 Hugging Face 全面發佈,為產業提供了更具效率的 AI 工具,協助大規模生成高品質的訓練數據集。

NewMobileLife 網站:https://www.newmobilelife.com

查看原始文章

OpenAI 計劃 2026 年底上市 憂心 Anthropic 搶先掛牌

流動日報

Microsoft 測試 Windows 11 頂部選單列 強化介面自定義與工具存取

流動日報

Google Maps 語音導航升級 支援步行與單車模式使用 Gemini

流動日報
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...