Python 有什么无脑 OCR 库能搞掂下面这种图片么？

基本没有噪点的图片,很纯净的数字.

zzj0311

2019-01-23 22:37:16 +08:00

那么规整 mask 套不就完了。。

nicevar

2019-01-23 22:38:40 +08:00

直接调用 tesseract 就行了，或者用百度的 ocr 也行，这种简单的数字一天能有 5w 次免费额度

lsvih

2019-01-23 22:38:42 +08:00

tesseract

xiumie

2019-01-23 23:05:28 +08:00

tesseract py

codelover2016

2019-01-23 23:19:25 +08:00

@nicevar @xiumie @lsvih tesseract 我试过,没出来...
好惨.

codelover2016

2019-01-23 23:19:40 +08:00

@zzj0311 mask 是哪个库?

Geno1024

2019-01-23 23:41:51 +08:00

😐直接打字符像素点的匹配不就是了……

Vegetable

2019-01-23 23:50:03 +08:00

@codelover2016 这个绝对 tesseract 绝对可以的，甚至不需要训练。
注意一下参数，纯数字，单行，英语。具体参数不记得了。

nicevar

2019-01-23 23:58:24 +08:00

@codelover2016 这种纯数字太简单了，你需要 tessdata，python 用 pytesseract 库就行了

tomczhen

2019-01-24 00:09:34 +08:00

这种程度的 tesseract 绝对可以了，之前弄着玩了一下，比这个复杂多了的也有 70%的正确率。

ioven

2019-01-24 09:48:14 +08:00

百度、腾讯、搜狗的 ocr 都能识别

liberize

2019-01-24 10:01:24 +08:00

tesseract 参数你没设对吧，这种 100%识别率吧

linap

2019-01-24 13:41:04 +08:00

分割成相同宽度，取 5 个特征点，搞定

locoz

2019-01-24 23:01:42 +08:00

这种简单的纯数字可以切片好直接对比像素点，比 OCR 的效率还高

codelover2016

2019-01-25 23:55:07 +08:00

@liberize 能不能伸手党要个代码...

codelover2016

2019-01-25 23:55:19 +08:00

@locoz 这个非常有道理...

liberize

2019-01-26 11:46:36 +08:00

@codelover2016

$ cat test.py

import pytesseract
from PIL import Image

img = Image.open('test.jpg')
print pytesseract.image_to_string(img, lang='eng', config='-psm 6 digits')

$ cat digits

tessedit_char_whitelist 0123456789
debug_file /dev/null

$ python test.py
659208134

digits 文件放到 .py 相同目录（也许可以写到代码里，自己研究吧）

liberize

2019-01-26 11:48:42 +08:00

额，少复制了一个 7，实际结果是对的，你自己试试把

liberize

2019-01-26 11:49:19 +08:00

模板匹配也可以，代码稍微多点，自己写吧

Nick2VIPUser

2019-01-26 18:48:38 +08:00

https://blog.csdn.net/weixin_39198406/article/details/85808544

tesseract 100%

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/529992

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.