整合了一套开源 OCR 识别方案,支持 HTTP API 调用

1 天前
 xiaoz

网上没找到比较适合的现成 OCR 私有部署方案,于是基于百度飞桨平台发布了全新的 PP-OCRv6 识别模型自己整合了一套方案 ZOCR ,支持 Dcoker 部署和 HTTP API 调用。

Zocr 开源地址:https://github.com/helloxz/zocr

Zocr 特点

Docker Compose 部署

创建compose.yaml文件:

services:
  zocr:
    image: helloz/zocr
    container_name: zocr
    ports:
      - "5080:5080"
    environment:
      - ZOCR_TOKEN=your_token_here
    restart: always

然后输入:docker compose up -d启动。

注意:请将your_token_here设置为您自己的密钥,支持字母或数字。

使用

HTTP API 支持 2 种接口,一种是上传文件识别,一种是通过传递图片 URL 进行识别,调用方法如下:

# 使用 curl 调用(上传文件)
curl -X POST http://localhost:5080/api/ocr/upload \
  -H "Authorization: Bearer your_token" \
  -F "file=@test.jpg"

# 使用 curl 调用(通过 URL )
curl "http://localhost:5080/api/ocr/fetch?url=https://example.com/image.jpg" \
  -H "Authorization: Bearer your_token"

DEMO

在线演示地址:https://zocr.xphub.dev/

需要输入 Token:blog.xiaoz.org,此 Token 有效期 7 天,后续我会修改 Token 纯自用。

2387 次点击
所在节点    分享创造
40 条回复
zsj1029
1 天前
最近 x 上看到的,听说很牛的,甚至可以跑在 webassembly 本地 ocr 模型
xiaoz
1 天前
@zsj1029 #1 ,是的,我试了下效果还不错,而且速度很快。宣传的本地浏览器就能跑,不过浏览器上我还没测试过。
wshjdx
1 天前
善,已经部署
xiaoz
1 天前
@wshjdx #3,祝你使用愉快,有什么建议也可以去 Github 反馈,感谢。
burp2019
1 天前
体验了下速度挺快,你意思是模型开源,可以离线部署么
xiaoz
1 天前
@burp2019 是的啊,百度飞桨模型不是开源很多年了嘛。

我上面那个就是基于百度飞桨的 PP-OCRv6 模型,你可以让 AI 辅助你研究下他们的文档。
lyxxxh2
22 小时 34 分钟前
我来拨个冷水,效果不咋地。
运行图:https://i.ibb.co/W4sQd3kx/test1.png
原图:https://i.ibb.co/Q33SWbYB/d3.jpg

我尝试过飞桨的 ocr 方案,印象是可以识别的啊。
xiaoz
22 小时 18 分钟前
@lyxxxh2 #7 ,飞桨提供的 OCR 模型挺多的,不同模型效果存在差异。

PP-OCRv6 主要是比较轻量,适合一些标准网络图片识别,一些手写字或者特殊字体效果可能确实一般。

如果要高精准,用更大的模型或者调用官方 API 效果更好。一般场景的话 PP-OCRv6 也够用了。
ITisCool
22 小时 7 分钟前
可以加上 Medium 档吗?,想在服务器部署一个
xiaoz
21 小时 54 分钟前
@ITisCool #9 ,可以,一会儿我去加上。
jackOff
20 小时 15 分钟前
这么牛逼?纯 cpu 本地离线就能跑?那不得不好好学习一下了
xiaoz
20 小时 12 分钟前
@jackOff #11 ,嗯,是的,现在已经很牛逼了,你可以去研究下百度飞桨的 Github ,关键词是:PP-OCRv6
luis330
19 小时 48 分钟前
基于飞桨的 API ,我是让 hermes 自己做了个技能,有什么图片、PDF 之类需要 OCR 识别的,都交给他跑 API 就好了,也很方便呢
xiaoz
19 小时 31 分钟前
@luis330 #13 ,那你 hermes 直接对接后端多模态的大模型不更简单么,就是比较费 tokens
xxgzzzzzz
19 小时 20 分钟前
有没有 arm 可以用的高精度 车牌识别呢
v1
19 小时 17 分钟前
hook 微信截图的 ocr 最好用,医体字都快成象形字了都能识别 70%
perfectlife
19 小时 17 分钟前
ocr 识别后能按图片中文字布局显示就好了
yuhuai66666
19 小时 15 分钟前
实体的银行卡呢 可以识别么
rockddd
19 小时 14 分钟前
可以支持同步输出文字坐标吗
xiaoz
19 小时 8 分钟前
@rockddd #19 ,WEB 页面只是起到快速演示作用。你 F12 看下 API 或者根据项目说明直接调用 API ,有返回坐标的哈。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1221257

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX