Python 识别图片文字的效果是不是很差？

试了一下 pytesseract 模块，好像很多文字都识别不了，只有一些纯色背景并且颜色反差比较大的才比较容易识别出来。
用百度的文字识别 api 接口大部分文字都能识别出来，效果挺好的，但有点担心图片内容的安全问题。
利用程序识别最多只能达到 pytesseract 模块这种程度的效果了吗？

ipwx

2021-12-06 00:41:40 +08:00

> 利用程序识别最多只能达到 pytesseract 模块这种程度的效果了吗？

pytesseract 是上古时代的东西啊，十年前的算法。当然比不上好歹有一坨 DL 工程师的百度。

你要牛逼，你自己写模型嘛

zictos

2021-12-06 00:44:22 +08:00

@ipwx #1 没有贬低 python 的意思，只是不知道通过程序自动识别能够达到什么程度，另外就是不知道是否有其他效果更好的模块。

ClericPy

2021-12-06 00:46:28 +08:00

没训练的模型和别人又是标注又是训练加深度学习一大堆优化的比, 就别把锅甩 Python 头上了...

现在图片识别方面国内好使点的貌似也就百度和阿里商用做的挺好的

deplivesb

2021-12-06 00:47:00 +08:00

好家伙，一个被神经网络带火的语言现在被说识别图片文字效果好差，楼主这一波讽刺可以的

zictos

2021-12-06 00:55:09 +08:00

@deplivesb #4 哪里是嘲讽了？是不是嘲讽应该没关系吧？是不是关键在于描述里面出现“百度”这两个字？
我要认为百度牛逼，还会谈论安全问题吗？这也只是举个例子，3 楼也承认就是百度和阿里做得好点，我举例肯定用效果好的举啊！
我的初衷是想知道到底利用程序识别能达到什么程度的效果。其实网上很多 python 识别文字的文章，然后就说用 pytesseract 模块，却基本都丝毫不提效果问题。
提这个问题的话，还有一个目的就是想知道是否除了 pytesseract 模块还有更好的方式。python 效果不如百度的人工智能这肯定是都能理解的，没有争议的，这也要跟嘲讽挂钩吗？之所以提一下百度是因为百度能用，然后就是希望有效果跟百度差距小一点的方式，当然想到达人工智能的效果肯定是不可能的。

tomczhen

2021-12-06 00:57:57 +08:00

我来开大的。

中国人写 python 识别图片文字的效果是不是很差？

lithiumii

2021-12-06 00:58:56 +08:00

既然说了百度，百度的 ocr 有开源部署的，搜 paddle 或者飞桨

ipwx

2021-12-06 00:59:54 +08:00

@zictos 呃不知如何吐槽。。。

因为这个世界上大部分 state-of-the-art 的人工智能算法研究者，每年发的一堆论文，都是 python 语言上实现的 prototype 。。。

人工智能也是程序啊亲。百度的文字识别这一具体 api ，就是人工智能（还不算顶尖）的真实效果啊

zictos

2021-12-06 01:00:35 +08:00

@tomczhen #6 好吧，是我表达不太准确，但我肯定不是这个意思。我的意思是 python 现有的现成的方案识别图片问题的效果是不是很差。
但是你们实在要抓住这些的话就是都有故意杠的意思了，我要真的愿意自己写模型又何必来提这个问题呢？

zictos

2021-12-06 01:11:16 +08:00

别说提一下语言问题，比如你到一个地方，你说“怎么一个人都没有”？
那你自己呢？真要抓语言漏洞一抓一大堆啊！

ipwx

2021-12-06 01:13:33 +08:00

@zictos 因为神经网络就是这么个东西：任何一个简单的 application 都要用基本模块自己搭。不存在通用的工具箱。。。文字识别就是一个特殊的 application

Muniesa

2021-12-06 01:14:07 +08:00

你猜百度开源的 paddle OCR 是拿什么语言写的

stimw

2021-12-06 01:16:32 +08:00

@zictos #9 “我的意思是 python 现有的现成的方案识别图片问题的效果是不是很差。”

所以 ai 模型为什么被你排除在“现成的方案”和“程序”之外了？不都是 python 写的么？

ipwx

2021-12-06 01:18:35 +08:00

@stimw 这个楼主要的是直接开箱即用。

但是不行。原因我上面说了

westoy

2021-12-06 01:23:19 +08:00

tesseract 又不是开箱即用的方案，默认的几个原型只是针对主流标准字体，整套工具链就是让你标注训练了用的啊

zictos

2021-12-06 01:27:21 +08:00

@ipwx #11 我肯定知道现在很多就是利用 python 的，百度的 ocr 也是用程序写的，不可能凭空就有。这个无论是谁都懂。
只是我一开始真的就没往这方便想，普通人只是把 python 当成一个快速实现效果的工具，我的目的就是希望找到直接就能用并且效果还过得去的方案，如果实在没有就算了。我自己去测试 pytesseract 模块以及我来提这个问题，都是抱着立刻达到勉强能用的效果的目的，根本没想那么多。
的确我表达不严谨，但是我真的没有任何贬低 python 的意思，我自己经常用 python ，贬低它对我没任何好处。
另外就是正是因为 python 有 pytesseract 这样的模块，才让我觉得用 python 识别文字不应该那么复杂，直接引入一个模块就行。不然如果效果不行就干脆不要有模块好了。
我其他表达方面其实算严谨的，其实并没有抬高百度的意思，用词都是比较注意。一开始我是认为应该不太可能出现有人认为我贬低 python 的，然后出现这种情况后我一开始还以为是因为出现“百度”这两个字。无论如何，我就是抱着一种希望能简单解决问题的初衷，不存在任何其他目的，所以一开始没有想那么多，所以就导致问题的标题用词比较简单。

dingwen07

2021-12-06 01:28:57 +08:00

https://github.com/PaddlePaddle/PaddleOCR

Python 79.1%

zictos

2021-12-06 01:32:10 +08:00

@ipwx #14 当然无论我怎么用词都可能被人找到漏洞，比如 13 楼

rpman

2021-12-06 01:45:20 +08:00

免费离线的算法和模型能指望给你多好的?

deplivesb

2021-12-06 01:46:38 +08:00

@zictos 你对现在有关图像识别还存在很严重的误解。“用 python 识别文字不应该那么复杂，直接引入一个模块就行” 一直以来神经网络就是一个复杂的东西，在现在为止，如果有能开箱即用的东西，要不然就是覆盖面不够全，只能针对单一场景进行开箱即用，要不然就是个玩具而已。而且你从标题就说了一个 “Python 识别图片文字” 识别图片文字本身就是一个很大很大的内容，识别什么文字？中文？英文？数字？还是混合都有，文字是标准打印体还是手写体？字体是否都是正的，而不是斜着，倒着的。字体和背景是否有明显区分？这些信息你一个都没有，上来就是一句 “Python 识别图片文字的效果是不是很差”
不喷你才怪

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/820234

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.