Mistral 宣稱推出最強多模態 OCR API,幫你把 PDF 轉成 AI 好讀文件
當各家科技巨頭競相推出 AI 推理模型,法國 AI 新創 Mistral 在 3/6(四)發表了新 API:Mistral OCR,目的在幫助開發者將複雜的 PDF 文件轉換為結構化的文本格式,進而便於 AI 系統進一步分析和利用。
Mistral 共同創辦人兼首席科學家 Guillaume Lample 表示,「多年來,組織累積了大量文件,通常是 PDF 或 PPT 格式,這些檔案是 LLM,尤其是 RAG 系統無法存取的。」
《VentureBeat》報導,根據 Mistral 的說法,全球約 90% 的企業數據屬於非結構化數據,因此對於想把資料數位化、分類以用於 AI 應用程式或內外部知識庫的企業來說,新 API 能將之結構化處理是巨大福音。具體來說,Mistral OCR 有哪些亮點?
亮點 1:多模態改善複雜文件的處理方式
Mistral OCR 的亮點在於,它與大多數傳統的 OCR API 有所不同,不僅能識別文本,還能處理手寫筆記、圖片、表格、數學公式等多模態內容。這意味著當 PDF 文件中包含插圖或照片時,Mistral OCR 會將這些元素進行標註並保留在輸出中。
此外,Mistral OCR 的輸出不只是一大段文字,而是採用 Markdown 格式,讓開發人員可以用來新增連結、標題和其他格式元素。《TechCrunch》解釋,由於 LLM 非常依賴 Markdown 格式作為訓練資料集,隨著生成式 AI 發展,原始文本、Markdown 格式在近年變得更加重要。
亮點 2:宣稱性能地表最強,支援多語言處理
Mistral 強調自家 OCR 的表現超越競爭對手 Google、微軟和 OpenAI 現有的 API,其引用基準測試指出,Mistral OCR 在數學識別、掃描文件和多語言文字處理方面取得了最高的準確率。
此外,Mistral 也強調其 OCR 更快的處理速度──每分鐘可處理多達 2,000 頁文件,而這種速度特別適用於需要處理大量文件的產業,如研究、客服和歷史保存等領域。
亮點 3:與大型語言模型結合,提升文件處理能力
Mistral OCR 可與大型語言模型(LLM)相結合,使企業能夠將多模態文件輸入至 RAG(檢索增強生成)系統中,而開發者可以將此 API 整合進現有的工作流程,支持更加高效的文件處理和資料存取,例如讓使用者透過自然語言查詢文件內容、跨多個文件比較分析。
此外,Mistral OCR 也整合到 Mistral 的 AI 聊天機器人 Le Chat 中,未來也預計透過雲端和推理合作夥伴提供 API,甚至支援具有高度安全性要求的企業在自己的基礎設施上部署。
立即下載《2025 AI 工具應用報告》
【推薦閱讀】
◆ AI 是聽話學生還是革命者?Hugging Face 共同創辦人發文挑戰 Anthropic CEO
*本文初稿由 AI 生成,經《TechOrange》編撰,資料來源:《TechCrunch》、Mistral AI、《VentureBeat》,首圖來源:Unsplash。