有会图像处理的吗,小老弟有个问题想请教一下

2020-10-31 17:32:18 +08:00
 cbwood

有一个 pdf 文件,文件内容是一些规则排版的文字,但不是汉语,用目前的一些 ocr 也不能很好的识别出这些文字。

现在我想将 pdf 每一页转成图片,然后将图片中的每一个文字截取出来变成图片单独存储,现在的问题是不知道怎么样将每一个文字截取出来变成单独的图片,请问有什么合适不合适方法或者工具可以推荐一下吗?

1561 次点击
所在节点    问与答
12 条回复
jdhao
2020-10-31 17:36:35 +08:00
每一个字单独抠出来,你怎么确定每一个字在图像中的位置啊?
lichdkimba
2020-10-31 17:37:23 +08:00
如果量不大 手打最快最简单
cbwood
2020-10-31 17:42:43 +08:00
@jdhao 这也是一个问题
cbwood
2020-10-31 17:43:02 +08:00
@lichdkimba 量很大,500 页 pdf
coderluan
2020-10-31 17:52:39 +08:00
给个思路,首先把根据文字颜色把图像二值化(文字的颜色全变成白色,其余的颜色变成黑色),然后进行膨胀变化(白色会变胖),这样文字部分会连成大白块,然后可以获取这些大白块的轮廓,然后获取这个轮廓的最小外接矩形,然后在原图中按这个矩形裁剪就行了,可以用 opencv 实现,上面提到的操作全有现成的 API 。
jdhao
2020-10-31 18:47:48 +08:00
@coderluan 太不稳定,有的文字挨的很近,你这样能保证每个文字一个连通域吗
cbwood
2020-10-31 19:09:45 +08:00
@jdhao 基本我的原始图片是可以保证的
3dwelcome
2020-10-31 19:23:19 +08:00
调用个 pdf 库,把 unicode 每个字符,逐个转换成图片不就可以了。
upczww
2020-10-31 19:25:36 +08:00
先用文本检测,再用 ocr
cbwood
2020-10-31 20:28:47 +08:00
@3dwelcome 请问可以具体说一下,没有找到可以识别 pdf 文字并保存为图片的库
3dwelcome
2020-10-31 23:38:18 +08:00
@cbwood 不用 ocr 啊,你本来 pdf 里就是存文字的,随便用个库,读出来也是文字。
如果原始 PDF,非汉子的那种语言是图片,那你直接切分图片就可以了,同样不需要 ocr 识别。
turan12
2020-10-31 23:45:06 +08:00
如果方便的话楼主可以把其中一段文字截图发上来看看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/720521

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX