求教, python 验证码识别

2016 年 12 月 22 日
 slwl

这种类型的,有高人指点下思路没?

4410 次点击
所在节点    Python
16 条回复
allenx
2016 年 12 月 22 日
大量样本+神经网络 , 切分加识别或者 end2end 解决
yanzixuan
2016 年 12 月 22 日
打码平台。。。
slwl
2016 年 12 月 22 日
@yanzixuan 打码平台可以,试过了。不过速度太慢了。要差不多 10S 了。有没有快速的推荐呢
slwl
2016 年 12 月 22 日
@allenx 每次的单个字母位置占比有区别,是不是不好切割
harry890829
2016 年 12 月 22 日
一般就是 opencv 来个二值化,然后再去噪点,然后再来大量样本
jpyl0423
2016 年 12 月 22 日
https://www.showapi.com/api/lookPoint/184
刚才试了一下, 大概 1.2s 能识别完成.
imcocc
2016 年 12 月 22 日
@slwl http://www.deathbycaptcha.com/
国外机器识别的平台 使用 api
能够识别大部分的验证码
enenaaa
2016 年 12 月 22 日
楼主想问的是切割粘连字符的思路吧。 看这图等比例切也行啊
fffflyfish
2016 年 12 月 22 日
Tyanboot
2016 年 12 月 22 日
tesseract 训练一下?对应 pytesseract
harry890829
2016 年 12 月 22 日
@enenaaa 其实不需要等比例切啊,二值化之后,去掉部分噪点,然后通过一个算法,名字我忘记了,大致意思就是,一个黑像素点附近如果再没有别的像素点的话,可以判定这个是无效点,于是就将他置白。
省下的就是一个相对好的图片了,再进行有效字符的截取,就是单个字符了,再去识别
enenaaa
2016 年 12 月 22 日
@harry890829 如果字符不粘连,那投影后在空白处直接切割就可以。
但楼主这图片里面, m 和 z , h 和 n 两两粘连, 就不能直接切割了。
harry890829
2016 年 12 月 22 日
@enenaaa 这倒是,对于验证码这样多字体的匹配,我也和楼上一样推荐 tesseract
annian
2016 年 12 月 22 日
提供 90%以上识别率,速度 1s 内的服务,需要可以联系
TaMud
2016 年 12 月 22 日
opencv find obj
可以满足你的,准确率非常高
只是对 cpu 要求也高
返回对像含坐,按 x 坐标排一下就是结果
mingyun
2016 年 12 月 25 日
PIL pytesseract

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/329316

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX