请教关于高效批量 PDF 转 TXT

2021-07-22 00:09:07 +08:00
 leverestfish

不需要 OCR 的,都是完全电子版的 PDF 文件。

最好是用脚本的比如 python,尝试过 pdfminer 感觉性能很弱鸡,鲁棒性也不够(也可能是我用的不对?在一个 1 核 2G 的云服务器上跑 50 页左右的,经常被强制 KILL );

实在不行也可以用软件,但是必须要能批量(手头文件很多)

谢谢大噶,被一个小需求烦死了,感觉市面上解决方案不多。

1760 次点击
所在节点    程序员
9 条回复
kkocdko
2021-07-22 00:58:26 +08:00
pdf.js 渲染然后 innerText
没试过,不知道行不行。另外能本地完成为啥要在服务器上跑
ikas
2021-07-22 01:03:38 +08:00
Apache Tika...只是用过
felixcode
2021-07-22 01:08:37 +08:00
用 calibre 的命令行工具转换
reallittoma
2021-07-22 08:49:14 +08:00
可以用 Ghostscript
Latin
2021-07-22 09:01:50 +08:00
zjsxwc
2021-07-22 09:11:55 +08:00
gs -sDEVICE=txtwrite -o output.txt input.pdf
cnoder
2021-07-22 10:16:55 +08:00
unoconv 我们生产环境的转换用的这个
goxxoo
2021-07-22 10:36:33 +08:00
pdf 2000 页的路过 ,才 50 页,不存在性能问题
xmt328
2021-07-22 15:30:54 +08:00
@goxxoo 根据 PDF 的编码方式,页码不是性能的关键,反正都是分页解析的,主要是看一页有多少内容,如果都是纯文字其实不吃内存

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/790958

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX