DeepSeek OCR: 10 倍文档压缩, 97%准确率,让你的 LLM 读得更快、更省

1 天前
 mryangsd

长文档上下文受限、API Token 成本居高不下、复杂版式难识别,是每个 AI 应用落地都要面对的现实问题。DeepSeek OCR 以“视觉 Token 压缩”为核心,把 1000 字的文档压缩到约 100 个视觉 Token ,在保持高精度的同时显著降低成本、提升处理速度。

核心亮点

10 倍压缩:1000 字 ≈ 100 个视觉 Token ,突破上下文限制,显著降低 LLM 费用。 97% 准确率:复杂文档(公式/表格/多语言)依然稳定输出,高可用可落地。 多模态更强:文本、LaTeX 公式、表格、图表、化学式等复杂内容结构化更友好。 四档分辨率:64/100/196/400 Tokens ,覆盖预览到精细提取的不同场景。 开源可商用:GitHub+Hugging Face 双端发布,下载即用,便于二次开发与部署。 性能可扩展:单 A100 可达约 20 万页/天,20 台集群≈3300 万页/天,支撑规模化生产。 对比价值

相比传统 OCR:在复杂版式与结构化内容上可维持更高识别质量,跨语言更稳。 相比纯文本方案:在长上下文任务里通过 Token 级压缩直接降低 50%–90% 成本与时延。 相比同类模型:在相近质量下显著减少 Token 开销(参考公开与内部评测),更经济可控。 注:以上指标来源于公开基准与内部测试,受数据与环境影响可能存在差异。 典型场景

学术与技术:论文/专利/技术白皮书解析,公式与图表理解更准确。 业务与合规:合同、招采、财务报表结构化抽取与审阅自动化。 知识与检索:RAG 长文档向量化与检索问答,显著降低入库与交互成本。 数据与标注:大规模图文转结构化样本,高效生成下游训练与评测数据。

快速体验: deepseekocr

141 次点击
所在节点    海口
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1167809

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX