V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Visitor233
V2EX  ›  程序员

求助帖:营业执照内容识别

  •  
  •   Visitor233 · 126 天前 · 2276 次点击
    这是一个创建于 126 天前的主题,其中的信息可能已经有所发展或是发生改变。

    RT,最近整的项目要识别上传的营业执照图片,并获名称和信用代码这些信息。git 上没搜到= =(或许姿势不对)。我对这块不了解,希望有经验的大佬留言指点下,谢谢。

    24 条回复    2020-09-19 06:42:15 +08:00
    shequ2046
        1
    shequ2046   126 天前
    也求一下其他证件的识别代码。。。
    xinghen57
        2
    xinghen57   126 天前 via iPhone
    图片处理加 ocr,这个思路试试吧
    jdhao
        3
    jdhao   126 天前 via Android
    先用 ocr 识别文字和具体位置,然后做处理,提取你想要的内容
    Blulotus
        4
    Blulotus   126 天前
    百度 api 每天有两百次免费额度
    renmu123
        5
    renmu123   126 天前
    应该和发票识别挺像的
    twor2
        6
    twor2   126 天前
    营业执照上有二维码,直接解析二维码上的网页内容如何?
    Visitor233
        7
    Visitor233   126 天前
    @xinghen57
    @jdhao 么我也想试试自己写代码,少用第三方,这等提升自我的机会放弃了,可惜。
    @Blulotus 每天 200 次免费就很 nice,谢谢
    brendanliu
        8
    brendanliu   126 天前
    百度 AI 文字识别-营业执照识别欢迎你 https://ai.baidu.com/tech/ocr_cards/business
    需要优惠可联系我
    jdhao
        9
    jdhao   126 天前 via Android
    @Visitor233 你调用 ocr 识别 api 就行了,自己开发文字识别工作量巨大。或者像 8 楼那样,直接调用识别证件的接口,一步到位,看你自己的需求。
    xinghen57
        10
    xinghen57   126 天前 via iPhone
    @Visitor233 github 上找图片处理类软件的项目,或者天若 ocr,这个是有源码。
    天若 OCR 的思路是先处理,得到符合百度 OCR API 要求的图片再上传识别。
    之前百度文字 OCR 的 API,每天是上万次的免费,一般小企业够用的。
    不先以处理,会影响 OCR 识别效果。
    xinghen57
        11
    xinghen57   126 天前 via iPhone
    不过有个问题,无论自己开发还是调用现场执照识别 API,准确率都没法 100%
    wwwwzf
        12
    wwwwzf   126 天前
    https://v.ziti163.com/Font/webfont
    这有 ocr 识别,点上面菜单进,你看看
    chinvo
        13
    chinvo   126 天前 via iPhone
    @twor2 #6 系统改过好几次,有很多营业执照上的二维码已经是无效链接甚至域名都没了
    Visitor233
        14
    Visitor233   126 天前
    @brendanliu
    @xinghen57 刚试了百度的 OCR,图片里的 J 字母识别成了数字 1,这就很尴尬了
    brendanliu
        15
    brendanliu   126 天前
    @Visitor233 目前无法做到 100%精准识别 badcase 可以在工单里反馈 工程师会对模型做相应的优化
    qiayue
        16
    qiayue   126 天前
    @Visitor233 肉眼可能出错的,程序识别也会出错
    xinghen57
        17
    xinghen57   126 天前 via iPhone
    @Visitor233 你还是用现成的营业执照 OCR API 吧。
    J 识别错,正则替换或其他方式,比如分割处理下后再识别。
    另外看看文档,可能可以添加英文识别。
    我没接触太多,感觉几个技术点,一个在图片前期的处理,一个是 OCR 识别(准确率、排版以及准确度低的处理)
    天若对 OCR 的排版做的一般,对准确度处理根本没做。
    接触过的文字识别类软件,比如百度 OCR API (免费的文字识别)、白描、熊猫啥啥的、acrobat,都很少对识别准确率低文字的处理流程。
    这块超出你能力太多了。
    你要有想法,慢慢补没问题,直接拿出来用不是明智的选择。
    上面的都搞定了,完全可以开发个 app 自己用,嗯我我就是这么长远规划的。
    另外 OCR 好像有本地识别模型可以深度学习,又涉及神经网络了。
    技术有天花板,即便识别率 99.99%,剩下的 0.001%,需要其他非技术解决。
    慎满腔热血扎进去,后头土脸走出来。
    xinghen57
        18
    xinghen57   126 天前 via iPhone
    有些东西可以自己积累。
    我之前识别,遇到“一 yi”,识别出来后会有“-_—~”这几个,直接正则替换就解决了。
    这虽说是优化,但只是笨办法而已。
    yishengyongyi
        19
    yishengyongyi   126 天前 via Android
    用腾讯或者阿狸的,要求识别率高的话就属于人工智能范畴了,自己开发大概率比不过腾讯和阿狸
    wongchance
        20
    wongchance   126 天前
    dorothyREN
        21
    dorothyREN   125 天前
    免费接口就行
    evonotevil
        22
    evonotevil   125 天前
    Mac 扫描王
    ztechstack
        23
    ztechstack   125 天前
    @Visitor233 可以试一下高精度,之前识别医疗单据低精度 GG,高精度很满意。而且感觉整图全文识别和切割后再识别精度也不一样。
    Gathaly
        24
    Gathaly   125 天前
    v2 真的变了,全部都调包侠....
    关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2950 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 11:45 · PVG 19:45 · LAX 03:45 · JFK 06:45
    ♥ Do have faith in what you're doing.