一个 OCR 项目,初步预算 1500,搭配相应的查询工具。

134 天前
 Morrowless

要求

接近 1000 万张不同分辨率的图片,其中某个特定分辨率的大概有 300 万左右。
图片上固定位置有类似水印相机的附加文字。
对附加文字进行识别,用识别内容重命名图片,分文件夹归类整理。

一个查询工具,通过文字查询符合条件的图片,可预览可批量导出。
需要至少三个查询条件。

识别率要求至少 95%。越高越好。

现状

淘宝上找人用 PaddleOCR 跑了下,识别率只有 90%左右。已放弃。
希望能使用 PaddleOCR 或者其他类似开源项目继续优化将识别率提升上去。
如果开源项目实在不行,不排除使用阿里、百度之类付费 OCR 服务的可能。

做过 OCR 有兴趣的朋友请带 ID 加我: TW9ycm93bGVzcw==

谢谢大家。

1644 次点击
所在节点    外包
13 条回复
sltkzbw
134 天前
不知道你具体遇到了什么问题,如果是文字处于图像固定位置的话可以先按大致区域截下图再走 OCR ,原图直接上可能检测会不准,识别模型按你的描述有 90%准确率那我估计就是正常打印体,应该问题不大
zjcKD
134 天前
这个有现成的云服务吧?
youyang
134 天前
@zjcKD 这预算感觉用云服务更合适
Morrowless
133 天前
@sltkzbw 服务器崩溃,数据恢复后目录结构以及文件名丢失,只能通过 OCR 尽量获取可用信息。
Morrowless
133 天前
@zjcKD 有,贵……
Morrowless
133 天前
@youyang 这个预算用阿里百度等的 OCR 服务真不够诶
huangzebang787
133 天前
1500 确实预算太低了
Felix96
133 天前
我最近在做 paddleOCR 项目,我刚刚加你微信了。
shubiao
133 天前
说下我知道的,正好我负责对接的百度 ocr ,我司是识别 ui 的设计稿
100w 次调用,8k+,你这个量得纯费用就 8w ,还不算人工费。

百度里面有一款指定格式识别,就是类似识别身份证上的身份证号,不过可以自定义位置,可以看下

——
楼上说的截图后识别可以试试
星火的 gpt 支持传图,企业有 500 万 token 可以试试
找个便宜的 gpt4 key 服务商,可以试试 gpt4
多张图截图后合并一次,4 合一,立马省 75%的费用
shubiao
133 天前
另外,ocr 出来的东西不可控,比如横线,可能是中划线 下划线 汉字一 等等
你这种想精确使用识别的文字的情况,很难实现
zuiyue123
132 天前
手里完整模型有一套,可以尝试下
nyxsonsleep
132 天前
@shubiao #9 ai 识图能力能有 95%?
shubiao
132 天前
@nyxsonsleep 没估,我们识别出来文字也是喂给其他模块使用。
我们尝试直接用多模态去实现最终功能,效果也挺好。
一是贵,二是 ocr 文字可以用到很多地方,所以就放弃这个路线了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1004802

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX