pdf 开源处理程序

2022-09-26 16:57:37 +08:00
 novolunt

以前经常遇到不知道如何处理 pdf 文件,分享下使用的一些工具

poppler-utils 包
sudo apt-get install -y poppler-utils
命令行 grep 工具
https://pdfgrep.org/
网页转换为文本工具
https://pdftotext.com/zh/

其中 poppler-utils 也支持 win/mac

poppler-utils 包
二进制
https://anaconda.org/conda-forge/poppler/files
https://github.com/oschwartz10612/poppler-windows/releases
源码
https://gitlab.freedesktop.org/poppler/poppler

windows 目录结构
C:
    └ Program Files
        └ poppler-0.68.0_x86
            └ bin
            └ include
            └ lib
            └ share
命令说明
 * pdfdetach -- 列出或提取嵌入文件(附件)
 * pdffonts -- 字体分析器
 * pdfimages -- 图像提取器
 * pdfinfo -- 文档信息
 * pdfseparate -- 页面提取工具
 * pdfsig -- 验证数字签名
 * pdftocairo -- PDF 到 PNG/JPEG/PDF/PS/EPS/SVG 转换器使用 Cairo
 * pdftohtml -- PDF 到 HTML 转换器
 * pdftoppm -- PDF 到 PPM/PNG/JPEG 图像转换器
 * pdftops -- PDF 到 PostScript (PS) 转换器
 * pdftotext -- 文本提取
 * pdfunite -- 文档合并工具
2336 次点击
所在节点    程序员
7 条回复
throcean
2022-09-26 19:30:51 +08:00
666
throcean
2022-09-26 21:36:58 +08:00
楼主,源码编译太顶了,我最后直接用了 `brew install pdfgrep`
throcean
2022-09-26 22:09:08 +08:00
很有用!谢谢老哥!在包含文字里的 pdf 中检索得很好,但是如果 pdf 是图片转的就不行了,谢谢老哥!
tool2d
2022-09-26 22:21:16 +08:00
我一般用 ghostscript 转换 PDF ,功能强大,也很方便。
novolunt
2022-09-27 17:32:20 +08:00
都是收藏的,就没几个回复下,给个铜币 !!!
novolunt
2022-09-27 17:48:16 +08:00
@tool2d 看了下,使用难度很高,特别对于 windows 用户
nsynet57
2022-10-12 12:41:26 +08:00
很多 pdf 软件都是基于它

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/883076

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX