DeepSeek OCR： 10 倍文档压缩， 97%准确率，让你的 LLM 读得更快、更省

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

长文档上下文受限、API Token 成本居高不下、复杂版式难识别，是每个 AI 应用落地都要面对的现实问题。DeepSeek OCR 以“视觉 Token 压缩”为核心，把 1000 字的文档压缩到约 100 个视觉 Token ，在保持高精度的同时显著降低成本、提升处理速度。

核心亮点

10 倍压缩：1000 字 ≈ 100 个视觉 Token ，突破上下文限制，显著降低 LLM 费用。 97% 准确率：复杂文档（公式/表格/多语言）依然稳定输出，高可用可落地。多模态更强：文本、LaTeX 公式、表格、图表、化学式等复杂内容结构化更友好。四档分辨率：64/100/196/400 Tokens ，覆盖预览到精细提取的不同场景。开源可商用：GitHub+Hugging Face 双端发布，下载即用，便于二次开发与部署。性能可扩展：单 A100 可达约 20 万页/天，20 台集群≈3300 万页/天，支撑规模化生产。对比价值

相比传统 OCR：在复杂版式与结构化内容上可维持更高识别质量，跨语言更稳。相比纯文本方案：在长上下文任务里通过 Token 级压缩直接降低 50%–90% 成本与时延。相比同类模型：在相近质量下显著减少 Token 开销（参考公开与内部评测），更经济可控。注：以上指标来源于公开基准与内部测试，受数据与环境影响可能存在差异。典型场景

学术与技术：论文/专利/技术白皮书解析，公式与图表理解更准确。业务与合规：合同、招采、财务报表结构化抽取与审阅自动化。知识与检索：RAG 长文档向量化与检索问答，显著降低入库与交互成本。数据与标注：大规模图文转结构化样本，高效生成下游训练与评测数据。

快速体验： deepseekocr

目前尚无回复

OCR 压缩高精度