V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
xiao17174
V2EX  ›  分享创造

为了丰富战线,带来我的 windows 端在线 OCR 文字识别软件

  •  1
     
  •   xiao17174 · 2017-12-06 09:39:46 +08:00 · 6799 次点击
    这是一个创建于 1717 天前的主题,其中的信息可能已经有所发展或是发生改变。
    这个软件的话题好火,我看到了之后也来凑个热闹.花了两天时间做了这个.给 window 端的朋友们送来这个小玩具.
    免费使用.
    如果有建议什么的可以邮件或者直接回帖我.我会长时间维护的.
    使用方法.直接把图片拖入或者粘贴到衣衣身上.等待 1-2 秒后会弹出识别的文字.同时会复制到剪切板.
    网盘地址:
    https://pan.baidu.com/s/1pLJtyrh
    第 1 条附言  ·  2017-12-06 10:46:04 +08:00
    程序是绿色的.
    打开后就只有一张妹子图.这就是程序的主体.
    使用方法:
    1.需要识别某个图片时,可以直接使用 QQ 截图桌面,框选目标区域,点击完成(QQ 会自动把图片复制到剪切板).然后切换到我的程序上,直接粘贴.然后等待 1-2 秒.就会出来识别后的文字,并且已经复制到剪切板.
    2.对于现成的图片(.jpg,.bmp,.png),可以直接拖动图片到程序里,然后等待就可以了.
    3.对于在线的图片,可以右键程序选择打开 URL,然后等待就可以了.
    第 2 条附言  ·  2017-12-06 11:32:02 +08:00
    再说一句.程序是调用百度云端 OCR 的 API 接口.本身没有什么核心算法.就图个新鲜.
    第 3 条附言  ·  2017-12-07 09:26:10 +08:00
    更新版本:

    v0.0.8
    1.增加系统托盘.
    2.增加系统消息通知.
    3.增加全局热键处理.现在可以通用 ctrl+c->ctrl+alt+y->ctrl+v 来完全快捷键操作.
    4.增加拖动待识别图片到程序图标的处理.


    https://pan.baidu.com/s/1pLfxRxL
    第 4 条附言  ·  2017-12-14 17:35:01 +08:00
    上面一个 0.8 版本链接里的是 0.6 的程序(虽然名字是 0.8).
    更新一下链接:
    https://pan.baidu.com/s/1boJ2lif

    好像 windows 的 defender 会说不安全软件,
    不过各位可以用任何杀毒软件查杀一下,肯定是没毒的.
    第 5 条附言  ·  2018-01-12 15:38:57 +08:00
    v0.0.10 版本更新
    变动:
    1.百度的 token 可以通过配置文件-settings.ini 修改.这样就可以用自己的 key 来替换它.(感谢网友 Liu Joey 的建议)


    网盘链接:
    https://pan.baidu.com/s/1nwbgz9Z
    第 6 条附言  ·  2018-02-11 11:06:13 +08:00
    又一个月了,如果你在使用这个工具,又没有自己去申请过百度 key,请使用这个:
    24.151a05288f713aaf9d58fcc5368445df.2592000.1520909888.282335-10476211

    使用方法:
    将这串字符替换到程序根目录的 settings.ini 里.
    第 7 条附言  ·  2018-03-08 15:55:24 +08:00
    低调的开源了.
    去年开始随手做的.这两天终于有空可以着手稍微整理一下.
    整理完就开源了.希望大家可以继续完善它.让它成为一个可以真正可以使用的小工具.
    程序是基于 QT/C++的.
    核心部分已经模块化,可以方便的加入新的识别引擎.欢迎贡献.

    新版本中加入了调用 win10 的内置 OCR 识别引擎(识别率低到让人悲伤).所以它现在支持在线和离线两种方式使用了.

    github 的链接经常不稳定,所以就放到码云上了.
    https://gitee.com/xiao17174/sy_ocr
    嗯.用了 GPL 协议.
    20 条回复    2018-03-08 16:06:47 +08:00
    harry890829
        1
    harry890829  
       2017-12-06 10:52:22 +08:00
    楼主开源么
    xiao17174
        2
    xiao17174  
    OP
       2017-12-06 11:10:24 +08:00
    @harry890829 哈.这个本身没有任何技术含量.乱写的代码.就先不开源了吧.如果后期有大家的反馈做得完善一点了我再开源.没别的意思.现在的代码没法看.唔...我的高手人设不能崩.
    hester
        3
    hester  
       2017-12-06 11:13:10 +08:00   ❤️ 1
    既然 LZ 想要 ‘蹭热点’ 那就尽量把这款产品的一些大家关心的地方拿出来说说,提供几个思路:

    - 最好有个截图 / 动图;

    - 是离线方式 还是使用了 第三方服务,最好也有个说明;

    - 毕竟这里还算是技术类社区,所以也最好说说这个 App 的技术栈;

    - 既然是免费使用,并打算长期维护的话,建议放到 Github 上面;

    再多说几句

    - 我说的 ‘蹭热点’ 并不是一个贬义词,因此也没有任何贬低的意思;

    - 蹭热点没什么不好,但既然蹭的话,就要有些蹭的诚意;所以还是希望 LZ 把这款软件描述的更加清晰,否则就真成了 ‘蹭热点’;

    - 之前那个帖子争论的一个点: [产品 与 Demo] 的话题,希望 LZ 可以借鉴一下,否则这个 App 就成了那个帖子口中的 ‘ Demo ’ 了;

    - 如何才能不 ‘ Demo ’?可以看看最开始的一些建议;

    最后,加油~
    xiao17174
        4
    xiao17174  
    OP
       2017-12-06 11:29:58 +08:00   ❤️ 1
    @hester 谢谢你的回复.在你说这段话之前,我还真没意识到要区分产品或是 Demo.所以在读了你这段话之后,我可以确定,我做的就是一个 Demo.唔,大概我正文里提到的"小玩具"一词可以作些许旁证吧.
    至于长期维护与 github.我个人只在 github 上放源码.如果只是 exe.就算了.我的想法是这只是一个小玩具.可能过了两天,我的这个程序就只能在我的硬盘里找到曾经存在的证明了.
    不过正如我回复另一个朋友的话,如果真的有人喜欢,愿意一直的给我提意见,那我非常愿意继续维护和改进,并且开放源码.毕竟整个程序核心还是调用在线的 api(还是人家给的免费额度,嘿嘿).当前的话,我的程序的反馈途径只有这个帖子和我程序里的邮箱了.
    我以前是做服务端程序的.写界面算是个新手.我的初衷是练个手.
    至于蹭热度,只是随口说的.
    我有想法写这个程序,是在 13 天前.刚好回复过 iText 作者的某个帖子(不知道别人能不能看到我的回帖记录,可以去看看),看到有人问有没有 windows 版.在那之后几天就写了这个程序.
    然后昨天和今天发现大家都在讨论这个事.我就随手把我的程序分享出来了.
    无所谓认同或者其它的.就图个热闹.
    xiqingongzi
        5
    xiqingongzi  
       2017-12-06 13:22:07 +08:00 via iPhone
    - 试着加个快捷键?我之前有想过怎么在 Windows 上实现类似的功能,but Windows 的状态栏不能很好的拖拽。快捷键的交互可能好一些。

    - 可以考虑加一个对默认输入文件的识别,而不一定要推送。那么这样可以实现借助桌面快捷方式 /快速启动栏,将图片拖进去来实现识别。


    Good Job !
    xiao17174
        6
    xiao17174  
    OP
       2017-12-06 14:04:14 +08:00
    @xiqingongzi
    嗯.关于快捷键,我有考虑监听全局快捷捷,比如 ctrl+s+y,按下后我直接后台判断当前剪切板的内容是否是图片,如果是的话直接调 api 解析一次,然后把结果放回到剪切板.(顺便弹一个系统通知出来)
    默认输入文件的识别是指什么意思,没有很明白.当前版本拖图片进去时会判断格式是否正确的.如果不是正确的格式,拖到程序上会变成一个红色的禁止符号.
    感谢你的意见.
    xiqingongzi
        7
    xiqingongzi  
       2017-12-06 14:16:41 +08:00 via iPhone
    @xiao17174 比如 VS 可以通过拖一个文件到图标上默认打开。
    xiqingongzi
        8
    xiqingongzi  
       2017-12-06 14:16:50 +08:00 via iPhone
    ballshapesdsd
        9
    ballshapesdsd  
       2017-12-06 14:19:20 +08:00
    老铁双击 666
    xiao17174
        10
    xiao17174  
    OP
       2017-12-06 14:23:26 +08:00
    @xiqingongzi
    嗯.拖文件到图标上来这个,我觉得不如做个类似 360 的能量球的东西.不用时吸在屏幕边上,用的时候直接把图片拖到球上.不过这个就跟现在的也差不多了.只不过现在是一张图片.
    anyway,我会试试看的.
    ORZRRR
        11
    ORZRRR  
       2017-12-06 14:25:38 +08:00
    楼主有用过阿里云的吗,两家的识别准确率哪家比较好?
    xiqingongzi
        12
    xiqingongzi  
       2017-12-06 14:26:44 +08:00 via iPhone
    @xiao17174 能量球感觉要做的东西太多,比如交互、图标、反馈等等....拖进去会比较简单一些。而且能量球可能会比较容易被吐槽?
    xiao17174
        13
    xiao17174  
    OP
       2017-12-06 14:42:06 +08:00
    @ORZRRR 没有哦.无论哪一家,都有 N 种接口开放出来.针对不同场景有不同的接口.比如身份证,车牌,驾照等.我用的也只是百度的通用图片识别接口,也就意味着针对身份证,驾照这种特殊场景是没有优化过的.我用百度仅仅是先搜了他家的资料.就直接用了...
    哈哈貌似有点随意啥.我倒是想比较 google 的,但是要我输信用卡啊啥的,懒得弄了.
    xiao17174
        14
    xiao17174  
    OP
       2017-12-06 14:45:11 +08:00
    @xiqingongzi 能量球的好处在于程序"总在最前",这样可以在工作中无缝识别.丑...不是现在要考虑的问题啦.哈哈...你说的拖到图标上我也会做的.
    silencefent
        15
    silencefent  
       2017-12-12 10:21:44 +08:00
    不支持 32 位 said
    xiao17174
        16
    xiao17174  
    OP
       2017-12-12 14:17:46 +08:00
    @silencefent 哈?现在还有人在用 32 位的系统吗...大意了啊.
    silencefent
        17
    silencefent  
       2017-12-12 22:11:54 +08:00
    @xiao17174 我打算给文员妹子帮个忙,结果她 32 位系统,于是用百度云的 sdk 临时用 python 写了个
    applehater
        18
    applehater  
       2018-01-30 22:17:52 +08:00
    看这里 https://www.v2ex.com/t/427237 我也才发现 Windows 10 系统提供本地的 OCR API。
    xiao17174
        19
    xiao17174  
    OP
       2018-03-08 15:55:43 +08:00
    @harry890829 开源了哦.
    harry890829
        20
    harry890829  
       2018-03-08 16:06:47 +08:00
    @xiao17174 #19 恩恩,多谢哈,我有空看看
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2650 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:17 · PVG 19:17 · LAX 04:17 · JFK 07:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.