Python ocr 识别

2018-05-28 09:41:09 +08:00
 RicardoScofileld

最近在研究图片文字识别,贵族老爷们有没有什么好使的库推荐一发啊,试着用了用 pytesseract,感觉识别效果太差了

5549 次点击
所在节点    Python
30 条回复
mashiro233
2018-05-28 09:50:40 +08:00
tesseract-ocr 需要自己训练样本准确度才会高。
dassh
2018-05-28 10:13:53 +08:00
baidu ocr 接口,最近一直用这个,5W 次 /天免费?
FreeBSD
2018-05-28 10:57:26 +08:00
@dassh baidu ocr 能设计单行模式吗?
sunsulei
2018-05-28 11:08:49 +08:00
@dassh #2 #2 讲道理一天 5W 次?

有什么其他的地址吗?

dassh
2018-05-28 11:09:35 +08:00
@FreeBSD 什么不单行模式,只要其中某行的结果吗?如果是这样那为什么不先截出来再上传识别呢
dassh
2018-05-28 11:16:17 +08:00
@sunsulei 哇靠,你怎么是这样!我从控制台的进去的就是 5W

sunsulei
2018-05-28 11:40:37 +08:00
@dassh 控制台跟你的一样... 宣传页面是 500...
dassh
2018-05-28 11:59:05 +08:00
@sunsulei 嗯嗯,之前还做进对比:


百度的黄色的正确是中英标点有误(中文的识别成英文),绿色正确是完全正确,单个标红是除了红色部分其它全部识别正确

阿里的就是直接的识别结果

可以看出来百度在文字识别这块还是很强的
FreeBSD
2018-05-28 12:34:59 +08:00
@dassh 类似 tesseract 的 psm 7
Page segmentation modes:
0 Orientation and script detection (OSD) only.
1 Automatic page segmentation with OSD.
2 Automatic page segmentation, but no OSD, or OCR.
3 Fully automatic page segmentation, but no OSD. (Default)
4 Assume a single column of text of variable sizes.
5 Assume a single uniform block of vertically aligned text.
6 Assume a single uniform block of text.
7 Treat the image as a single text line.
RicardoScofileld
2018-05-28 13:28:40 +08:00
@mashiro233 我是直接下载的对应的中文训练集,就是不知道自己训练的话要如何实现呢?
RicardoScofileld
2018-05-28 13:31:59 +08:00
@dassh 大佬发个链接 0.0
dassh
2018-05-28 13:59:35 +08:00
RicardoScofileld
2018-05-28 14:01:12 +08:00
@dassh 谢谢啦
RicardoScofileld
2018-05-28 14:10:11 +08:00
@dassh 靠 效果确实不错 就是只有 500 次
dassh
2018-05-28 14:15:18 +08:00
@RicardoScofileld 通用识别(非高精度)应该有 5W 的,也够用
night98
2018-05-28 14:19:13 +08:00
ocr 腾讯家最强
RicardoScofileld
2018-05-28 14:19:59 +08:00
@dassh 通用的只有 500 次啊,要是 5w 次的话,我就不用再找了
RicardoScofileld
2018-05-28 14:24:09 +08:00
@dassh 靠,控制台进去 5w 次,外面 500 次,醉了
chenuu
2018-05-28 15:42:29 +08:00
我买的谷歌云提供的 vision
RicardoScofileld
2018-05-28 16:21:55 +08:00
@chenuu 效果和费用怎么样

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/458255

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX