私有化部署 OCR 解决方案请教

2025 年 7 月 24 日
 Sh1xin
目前有 PDF 和图片两种数据源;又可细分为
PDF:标准 PDF 和扫描件 PDF
图片:截图形式及拍照形式

当前验证方案:PaddleOCR——PP-OCRv5 进行 OCR 识别,之后把解析结果传送至 Gemma 3 27b 进行结果分析,并把需要的内容转换为 json 输出
问题:部分业务场景 OCR 识别粘连,多个相近的文本识别为同一个检测框;以及原本就是多行的文本,但是需求是要转换成一行。这两种在直接把识别结果发送给 Gemma 的时候都会解析错误。即使提示词严格显示输出的内容和要求,依然会获取错误。有没有什么好的方案
6954 次点击
所在节点    程序员
58 条回复
supermama
2025 年 7 月 24 日
只能自己训练
xomix
2025 年 7 月 24 日
前两天看到一个人搞了个 iPhone8 ,拿官方的 ocr 接口直接搞 ocr 服务器。
还有一个是微信 ocr 直接用,不知道你能不能用上。

另外你文中提到的问题是 ocr 分区识别的问题,你这是打算让 ai 直接帮你做了?那你可能需要写清楚你的需求,试着让 ai 从图片处理开始走流程。
ersic
2025 年 7 月 24 日
站内发过一个微信 ocr 模型的,https://www.v2ex.com/t/1120897
8820670
2025 年 7 月 24 日
pdf 的可以看 mineru
Maroontor
2025 年 7 月 24 日
Paddle 的准确率太低了
iorilu
2025 年 7 月 24 日
腾讯那个应该可以, 虽然模型不大, 但至少是专门训练的
其他不是专门训练成功率低没意义

我认为至少成功准确率 99%以上才有用, 要有大厂训练一个开源的就好了, 很多地方可以用
Sh1xin
2025 年 7 月 24 日
@ersic 好的,我试一下这个 OCR 效果
Sh1xin
2025 年 7 月 24 日
@xomix 我是想让 OCR 识别出来的结果。直接发送给 AI ,根据提示词可以获得我所需要的内容。但是现在部分场景检测框重合,OCR 输出的格式就错了,AI 识别有问题
cfer
2025 年 7 月 24 日
pdf 我没试过,不过 gemini 模型对图片的 ocr 还是蛮好的。
xomix
2025 年 7 月 24 日
@Sh1xin 对,所以我说你的 ai 要提前介入,场景检测框之前能不能让 ai 拆成不同的图片然后再 ocr ?
Sh1xin
2025 年 7 月 24 日
@test00001 gemini 不是开源的,没法私有化部署,不考虑。之前也试过直接发给 GPT O3 模型,识别效果特别好。可惜没法私有化部署。直接把图片发送给 gemma 3 27b 的话,识别的文字错误率太高,不可用
Ipsum
2025 年 7 月 24 日
不怕出事,就用 wx 的那个 ocr 。训练得很好。
xinyu391
2025 年 7 月 24 日
可以用我司的 文档解析服务 支持 图片,pdf (扫描档,电子档),公式,表格等。
https://www.textin.com/market/detail/xparse
visper
2025 年 7 月 24 日
yolo 训练,识别出框,然后通过框把图片截图出来再给 paddleocr.
hmxxmh
2025 年 7 月 24 日
pdf 的试一下 minerU 和 docing, 图片用 yolov8+ppocr
SanjinGG
2025 年 7 月 24 日
自己优化,要不就买商用的
fannheyward
2025 年 7 月 24 日
https://github.com/chatdoc-com/OCRFlux 识别效果和准确率都非常好
evan1
2025 年 7 月 24 日
https://github.com/rostrovsky/pdf-table

可以看看这个行不行。我多年前曾用这个实现了一个解析扫描版 pdf 文件内容的需求。
andyskaura
2025 年 7 月 24 日
https://github.com/golangboy/wxocr 微信的 ocr 谁有 clone 吗?
thealert
2025 年 7 月 24 日
paddleocr 的准确率不行,都不如 chatgpt

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1147272

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX