整合了一套开源 OCR 识别方案，支持 HTTP API 调用

1 天前

xiaoz

网上没找到比较适合的现成 OCR 私有部署方案，于是基于百度飞桨平台发布了全新的 PP-OCRv6 识别模型自己整合了一套方案 ZOCR ，支持 Dcoker 部署和 HTTP API 调用。

Zocr 开源地址：https://github.com/helloxz/zocr

Zocr 特点

基于百度飞桨 PP-OCRv6 识别模型，提供两档可选：tiny / small
支持 Bearer Token 认证
支持 Docker 容器化部署
纯 CPU 推理，不依赖 GPU
支持常见图片格式：jpg/jpeg/png/bmp/webp
支持 HTTP 调用
轻量级占用

Docker Compose 部署

创建compose.yaml文件：

services:
  zocr:
    image: helloz/zocr
    container_name: zocr
    ports:
      - "5080:5080"
    environment:
      - ZOCR_TOKEN=your_token_here
    restart: always

然后输入：docker compose up -d启动。

注意：请将your_token_here设置为您自己的密钥，支持字母或数字。

使用

HTTP API 支持 2 种接口，一种是上传文件识别，一种是通过传递图片 URL 进行识别，调用方法如下：

# 使用 curl 调用（上传文件）
curl -X POST http://localhost:5080/api/ocr/upload \
  -H "Authorization: Bearer your_token" \
  -F "file=@test.jpg"

# 使用 curl 调用（通过 URL ）
curl "http://localhost:5080/api/ocr/fetch?url=https://example.com/image.jpg" \
  -H "Authorization: Bearer your_token"

DEMO

在线演示地址：https://zocr.xphub.dev/

需要输入 Token：blog.xiaoz.org，此 Token 有效期 7 天，后续我会修改 Token 纯自用。

2387 次点击

所在节点

40 条回复

zsj1029

1 天前

最近 x 上看到的，听说很牛的，甚至可以跑在 webassembly 本地 ocr 模型

xiaoz

1 天前

@zsj1029 #1 ，是的，我试了下效果还不错，而且速度很快。宣传的本地浏览器就能跑，不过浏览器上我还没测试过。

wshjdx

1 天前

善，已经部署

xiaoz

1 天前

@wshjdx #3,祝你使用愉快，有什么建议也可以去 Github 反馈，感谢。

burp2019

1 天前

体验了下速度挺快，你意思是模型开源，可以离线部署么

xiaoz

1 天前

@burp2019 是的啊，百度飞桨模型不是开源很多年了嘛。

我上面那个就是基于百度飞桨的 PP-OCRv6 模型，你可以让 AI 辅助你研究下他们的文档。

lyxxxh2

22 小时 34 分钟前

我来拨个冷水,效果不咋地。
运行图:https://i.ibb.co/W4sQd3kx/test1.png
原图:https://i.ibb.co/Q33SWbYB/d3.jpg

我尝试过飞桨的 ocr 方案,印象是可以识别的啊。

xiaoz

22 小时 18 分钟前

@lyxxxh2 #7 ，飞桨提供的 OCR 模型挺多的，不同模型效果存在差异。

PP-OCRv6 主要是比较轻量，适合一些标准网络图片识别，一些手写字或者特殊字体效果可能确实一般。

如果要高精准，用更大的模型或者调用官方 API 效果更好。一般场景的话 PP-OCRv6 也够用了。

ITisCool

22 小时 7 分钟前

可以加上 Medium 档吗？，想在服务器部署一个

xiaoz

21 小时 54 分钟前

@ITisCool #9 ，可以，一会儿我去加上。

jackOff

20 小时 15 分钟前

这么牛逼？纯 cpu 本地离线就能跑？那不得不好好学习一下了

xiaoz

20 小时 12 分钟前

@jackOff #11 ，嗯，是的，现在已经很牛逼了，你可以去研究下百度飞桨的 Github ，关键词是：PP-OCRv6

luis330

19 小时 48 分钟前

基于飞桨的 API ，我是让 hermes 自己做了个技能，有什么图片、PDF 之类需要 OCR 识别的，都交给他跑 API 就好了，也很方便呢

xiaoz

19 小时 31 分钟前

@luis330 #13 ，那你 hermes 直接对接后端多模态的大模型不更简单么，就是比较费 tokens

xxgzzzzzz

19 小时 20 分钟前

有没有 arm 可以用的高精度车牌识别呢

v1

19 小时 17 分钟前

hook 微信截图的 ocr 最好用，医体字都快成象形字了都能识别 70%

perfectlife

19 小时 17 分钟前

ocr 识别后能按图片中文字布局显示就好了

yuhuai66666

19 小时 15 分钟前

实体的银行卡呢可以识别么

rockddd

19 小时 14 分钟前

可以支持同步输出文字坐标吗

xiaoz

19 小时 8 分钟前

@rockddd #19 ，WEB 页面只是起到快速演示作用。你 F12 看下 API 或者根据项目说明直接调用 API ，有返回坐标的哈。

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1221257

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX