整了个免费的离线 OCR 网站

2022-09-25 10:06:33 +08:00
 zjyl1994

把 Tesseract.js 包装成直接能用的网站了,全程在你的浏览器中识别,不需要上传。

个人主要用来识别测试反馈的截图, 抓里面的 TraceID 和接口调用参数,使用体验还不错。

对英文的识别效果还可以,中文的有点菜。

在线体验版: https://ocr.zjyl1994.com/

Github: https://github.com/zjyl1994/lazydogocr

注意:需要你的浏览器支持 WASM ,在线体验版部署在 CF Pages 上,加载训练数据需要 10 多 MB ,可能不会太快。

4773 次点击
所在节点    分享创造
20 条回复
jeesk
2022-09-25 11:54:24 +08:00
10s 都识别不出 😂
zjyl1994
2022-09-25 12:04:24 +08:00
@jeesk 网络原因?训练数据在 cf pages 上估计没拉下来。超高分辨率的图片也有可能很慢
jeesk
2022-09-25 13:41:27 +08:00
@zjyl1994 就是截图。 里面有 4 个字
Kiriya
2022-09-25 16:15:00 +08:00
可以考虑打包成本地应用😁
HugoChao
2022-09-25 16:54:25 +08:00
用了一下 感觉不错
mozila
2022-09-25 21:54:37 +08:00
先 m
HiCoder
2022-09-25 22:23:09 +08:00
试了下,不错
zjyl1994
2022-09-25 23:47:49 +08:00
@Kiriya 仓库拖下来用任何一个 http 服务器提供服务就可以了,打包本地应用我还不会弄,前端苦手
subframe75361
2022-09-26 08:55:26 +08:00
好东西,可以考虑做个 pwa ?
ShuaiYH
2022-09-26 09:11:56 +08:00
个人感觉这个库识别率有点低,特别是对于手写的
Aying
2022-09-26 10:11:35 +08:00
试了一下,不是很妙,中英文都试了。
https://ibb.co/Wn8tfMJ
https://ibb.co/7Gqy3KW
villivateur
2022-09-26 10:38:21 +08:00
中文识别,为什么每个字之间都会多出一个空格?
vantis
2022-09-26 11:38:43 +08:00
中文可以试试 paddle 阿里云有一件部署的 感觉识别率挺高

我是本地用 python 跑的 搭配 Alfred workflow 除了慢都挺好……
vtwoextb
2022-09-27 08:14:34 +08:00
现在开源的深度学习框架很多都包括 OCR ,这东西比较费资源
marvinemao
2022-09-27 09:39:09 +08:00
感觉不错
macy
2022-09-27 13:56:29 +08:00
基于这个库做过一个 pdf 识别的软件,除了慢点,效果还好,可以做精准识别,配置截图,将大图截取指定部分,会快很多,也会准确一些
caomingjun
2022-09-28 23:49:53 +08:00
如果只开发 Windows 应用,可以试试自带的 OCR: https://learn.microsoft.com/en-us/uwp/api/Windows.Media.Ocr?view=winrt-22621
bianz103
2022-10-05 18:46:13 +08:00
昨天把 paddleocr 整合到本地软件 verycapture 了,识别速度大概 8 秒左右,建议楼主可以试试
superliy
2023-02-23 16:13:29 +08:00
@bianz103 手写汉字吗?准确率怎么样
Endocryne
199 天前
识别率不是很理想

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/882733

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX