V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
edis0n0
V2EX  ›  程序员

目前日语 OCR 哪家最强?最好是离线可自部署的。前几天测试了下国产的 PaddlePaddle/PaddleOCR 识别中文能力还行,日文准确率极低,很多都识别不出来。

  •  
  •   edis0n0 · 2022-10-08 21:03:04 +08:00 · 2117 次点击
    这是一个创建于 428 天前的主题,其中的信息可能已经有所发展或是发生改变。
    8 条回复    2022-10-10 13:35:26 +08:00
    raycool
        1
    raycool  
       2022-10-08 21:48:48 +08:00
    估计你得自己做数据集自己训练吧。
    brendanliu
        2
    brendanliu  
       2022-10-08 22:14:53 +08:00
    商业付费可以看看百度大脑的 OCR ,有需要可以帮忙对接商务,但是私有化成本不低
    xhldtc
        3
    xhldtc  
       2022-10-08 22:25:08 +08:00
    试试 EasyOCR?
    rsy
        4
    rsy  
       2022-10-08 23:18:27 +08:00
    可以试一下 macOS 自带的 OCR Live Text
    日文识别没有问题
    edis0n0
        5
    edis0n0  
    OP
       2022-10-08 23:20:33 +08:00
    @rsy #4 但是我要接入产品用
    WOLFRAZOR
        6
    WOLFRAZOR  
       2022-10-08 23:26:22 +08:00
    得自己训练了吧?用商业化的那些,成本太高了,一般人给不起。
    huntzhan
        7
    huntzhan  
       2022-10-08 23:27:51 +08:00
    PaddleOCR 识别中文也不行呀,训练数据是学术数据集,跑跑学术 baseline 还行,实际落地别想了。而且模型设计上不太接地气,做过落地的懂得都懂。

    我比较好奇的是:1) OP 对准确率的要求是怎么样的?有没有一些典型的样本? 2) 私有化部署,能接受的付费吗?如果能,能接受的预期产品定价大概多少?

    利益相关:相关从业者
    inyin
        8
    inyin  
       2022-10-10 13:35:26 +08:00
    我就是基于 PaddleOCR 自己训练的日语模型,效果挺好的,然后作为 sass 服务在跑,这是项目地址 https://github.com/PantsuDango/Dango-Translator
    有兴趣可以找我合作~
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   880 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 20:22 · PVG 04:22 · LAX 12:22 · JFK 15:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.