目前日语 OCR 哪家最强?最好是离线可自部署的。前几天测试了下国产的 PaddlePaddle/PaddleOCR 识别中文能力还行,日文准确率极低,很多都识别不出来。

2022-10-08 21:03:04 +08:00
 edis0n0
2497 次点击
所在节点    程序员
8 条回复
raycool
2022-10-08 21:48:48 +08:00
估计你得自己做数据集自己训练吧。
brendanliu
2022-10-08 22:14:53 +08:00
商业付费可以看看百度大脑的 OCR ,有需要可以帮忙对接商务,但是私有化成本不低
xhldtc
2022-10-08 22:25:08 +08:00
试试 EasyOCR?
rsy
2022-10-08 23:18:27 +08:00
可以试一下 macOS 自带的 OCR Live Text
日文识别没有问题
edis0n0
2022-10-08 23:20:33 +08:00
@rsy #4 但是我要接入产品用
WOLFRAZOR
2022-10-08 23:26:22 +08:00
得自己训练了吧?用商业化的那些,成本太高了,一般人给不起。
huntzhan
2022-10-08 23:27:51 +08:00
PaddleOCR 识别中文也不行呀,训练数据是学术数据集,跑跑学术 baseline 还行,实际落地别想了。而且模型设计上不太接地气,做过落地的懂得都懂。

我比较好奇的是:1) OP 对准确率的要求是怎么样的?有没有一些典型的样本? 2) 私有化部署,能接受的付费吗?如果能,能接受的预期产品定价大概多少?

利益相关:相关从业者
inyin
2022-10-10 13:35:26 +08:00
我就是基于 PaddleOCR 自己训练的日语模型,效果挺好的,然后作为 sass 服务在跑,这是项目地址 https://github.com/PantsuDango/Dango-Translator
有兴趣可以找我合作~

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/885376

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX