V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
wsds
V2EX  ›  Python

Python 的 pytesseract+tesseract-ocr 识别验证码很弱啊

  •  
  •   wsds · 2018-06-06 17:36:35 +08:00 · 6901 次点击
    这是一个创建于 2393 天前的主题,其中的信息可能已经有所发展或是发生改变。

    这几个都没法识别

    2Fg4AJ.png

    只能纯数据,而且不加干扰的,才能识别

    2FgrJ1.png

    2Fg51d.png

    2Fg8ba.png

    7 条回复    2018-06-08 19:37:15 +08:00
    Leigg
        1
    Leigg  
       2018-06-06 17:54:02 +08:00 via iPhone
    reself
        2
    reself  
       2018-06-06 18:20:30 +08:00
    这个本来就是要根据具体场景去训练模型的
    jatesun
        3
    jatesun  
       2018-06-06 18:28:06 +08:00
    这种验证码可能需要训练吧
    summerwar
        4
    summerwar  
       2018-06-06 18:32:34 +08:00
    训练模型
    RicardoScofileld
        5
    RicardoScofileld  
       2018-06-06 19:24:28 +08:00
    说实话 我刚研究了这玩意一段时间,优化主要就在两方面,你先对图片进行一下预处理,作用很大,比如说二值化一下,这样干扰因素会少一些,然后你再对这种图片进行训练生成字体文件,放到 tessdata 中,tesseract 训练方法网上很多,你可以找一下,反正我是失败了,我在生成四个文件的时候会出错 也没招到原因,你可以试一试
    RicardoScofileld
        6
    RicardoScofileld  
       2018-06-06 19:25:37 +08:00
    再补一发,文字倾斜也会有影响,你爬的数据量不大,还是去调云打码这些平台的接口吧
    wsds
        7
    wsds  
    OP
       2018-06-08 19:37:15 +08:00 via iPhone
    @RicardoScofileld
    还不知道怎么通过打码平台调用,回去看看😁
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1240 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 17:50 · PVG 01:50 · LAX 09:50 · JFK 12:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.