有没有 Win 下好用的 OCR 工具推荐?

2018-02-08 22:27:35 +08:00
 Sixzeroo

最近在看一些扫描版本的电子书,有时候想要摘录一些内容要用到 OCR,目前网上找到的是要不就是有数量限制要不就是排队时间巨长,前些天自己用百度的 OCR 写了一个小东西( http://server.liuin.cn:8080 ),但是还是要将截图保存然后选择图片,这样花的时间有点长。

目前知道 macOS 上有一个比较好的工具: https://github.com/oott123/alfred-clipboard-ocr

所以想请教一下各位有没有 Win 下类似的好的工具推荐,就是那种能直接从粘贴板复制提交然后获得结果的

12220 次点击
所在节点    程序员
34 条回复
laqow
2018-02-08 22:41:40 +08:00
不介意的话 acrobat
choury
2018-02-08 22:42:12 +08:00
OneNote 啊
LosLord
2018-02-08 22:45:12 +08:00
Windows10 带 ocr 的 api 的,好像直接调用就行。
官方还有个 demo 呢,可以直接用 vs 运行
huclengyue
2018-02-08 23:01:24 +08:00
感觉百度的还不错。
huclengyue
2018-02-08 23:01:55 +08:00
嗯,要自己调接口
Sixzeroo
2018-02-08 23:11:40 +08:00
@choury 刚才试了试,发现识别率还是没有百度的高
Sixzeroo
2018-02-08 23:12:36 +08:00
@LosLord 有相关的资料吗?
Sixzeroo
2018-02-08 23:13:58 +08:00
@huclengyue 百度识别率还行,我用的这几天中文基本上很少有错
huiyadanli
2018-02-08 23:15:37 +08:00
ABBYY
LosLord
2018-02-08 23:41:16 +08:00
@Sixzeroo 不知道你需求什么样的,win10 带的是 ocr api 就是 c#的 uwp 应用好像。
https://github.com/Microsoft/Windows-universal-samples/tree/master/Samples/OCR
applehater
2018-02-08 23:52:00 +08:00
@Sixzeroo 看我发过的帖子就可以了。
zhaoxiting1997
2018-02-08 23:54:59 +08:00
abbyy finereader 绝对是最好的,就是比较大
applehater
2018-02-08 23:56:38 +08:00
@LosLord 只要🈶️运行时都可以调用的,我把他做成了命令行工具识别答题题目效果可以。
@Sixzeroo 里面有 MS 官方文档说明和示例。
/t/427237
LosLord
2018-02-09 00:00:55 +08:00
@applehater 这个我当时也有需求要写,可是我不会 c#😂
applehater
2018-02-09 00:03:14 +08:00
@LosLord 我也不会,UWP 支持四种编程语言,C# C++ VB.NET Javascript😀但是我还是懒得写了。
masir
2018-02-09 00:12:50 +08:00
Abbyy
g00001
2018-02-09 01:29:16 +08:00
可以用 aardio 写一个,
不需要运行时,生成软件几百 KB,开发工具 5.6MB ,简单方便。

几句代码可以解决问题:

import console
import win.clip;
import gdip.bitmap;
import baidu.client;

//创建百度 OCR 客户端
var http = baidu.client();
http.setAuth("http://update.aau.cn/v10/test/test-baidu.aardio")

//读取剪贴板图像
var hbmp = win.clip.readBitmap();
var bmp = gdip.bitmap(hbmp);

//调用 OCR 识别接口
var ocr = http.api("https://aip.baidubce.com/rest/2.0/ocr/v1/");
var result = ocr.general_basic(
image = bmp.saveToBuffer("*.jpg");
)

//输出结果
console.dumpJson(result);
console.pause(true);

参考源码:
http://bbs.aardio.com/forum.php?mod=viewthread&tid=22093

调用 google 的 tesseract-ocr 也可以
http://bbs.aardio.com/forum.php?mod=viewthread&tid=12601
qianyi0129
2018-02-09 08:21:56 +08:00
abbyy
newbieo0O
2018-02-09 08:56:22 +08:00
python 写个吧,调百度接口
qsnow6
2018-02-09 09:48:28 +08:00
也别调百度接口了,直接用 win 10 系统自带

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/429592

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX