首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
拉勾
V2EX  ›  Python

Python 的 pytesseract+tesseract-ocr 识别验证码很弱啊

  •  
  •   wsds · 195 天前 · 1203 次点击
    这是一个创建于 195 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这几个都没法识别

    2Fg4AJ.png

    只能纯数据,而且不加干扰的,才能识别

    2FgrJ1.png

    2Fg51d.png

    2Fg8ba.png

    7 回复  |  直到 2018-06-08 19:37:15 +08:00
        1
    Leigg   195 天前 via iPhone
        2
    reself   195 天前
    这个本来就是要根据具体场景去训练模型的
        3
    jatesun   195 天前
    这种验证码可能需要训练吧
        4
    summerwar   195 天前
    训练模型
        5
    RicardoScofileld   195 天前
    说实话 我刚研究了这玩意一段时间,优化主要就在两方面,你先对图片进行一下预处理,作用很大,比如说二值化一下,这样干扰因素会少一些,然后你再对这种图片进行训练生成字体文件,放到 tessdata 中,tesseract 训练方法网上很多,你可以找一下,反正我是失败了,我在生成四个文件的时候会出错 也没招到原因,你可以试一试
        6
    RicardoScofileld   195 天前
    再补一发,文字倾斜也会有影响,你爬的数据量不大,还是去调云打码这些平台的接口吧
        7
    wsds   192 天前 via iPhone
    @RicardoScofileld
    还不知道怎么通过打码平台调用,回去看看😁
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2690 人在线   最高记录 4019   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 19ms · UTC 11:26 · PVG 19:26 · LAX 03:26 · JFK 06:26
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1