有办法将 pdf 转成 markdown 吗？

2023 年 8 月 25 日

elevioux

试了下网上的几个工具，结果出来都不太理想。

pdf 都是一些产品说明介绍，有各种图表图片等，排版复杂没有规律。

想着能不能把产品 pdf 的主要内容，表格之类的转成 markdown ，方便后续 embedding 喂给 chatgpt 。

又或者 pdf to markdown 这一步需要单独训练个 AI 出来？如何开始，大家有思路吗？

3352 次点击

所在节点

问与答

19 条回复

me221

2023 年 8 月 25 日

pdf 可以直接 embedding 给 ChatGPT 呀

SWALLOWW

2023 年 8 月 25 日

@me221 怎么嵌入啊，怎么给文件，图片这些信息啊

elevioux

2023 年 8 月 25 日

@me221 如果我理解没问题的话，embedding 本身只是用于语义搜索，搜索出来的结果必须要有对应的原文本才好给到 chatgpt 处理。如果 pdf 转 markdown 不理想的话，chatgpt 拿到文本也是很难理解。还是我思路有问题？望指教

fzls

2023 年 8 月 25 日

@elevioux #3 下面这个网站可以直接喂 pdf

https://www.chatpdf.com/

yekern

2023 年 8 月 25 日

pdf 转 html 转 markdown 不可以么

elevioux

2023 年 8 月 25 日

@fzls 知道有这个网站，试了一下，有些问题还是回答不了，说文本没有提到。。。。

elevioux

2023 年 8 月 25 日

@yekern 有想到过，也试过，还是表格形式的数据难以转换。pdf 的排版太没规律了，我们人眼看起来是个表格，转成 html ，就成了各种 div 的拼凑。

c2const

2023 年 8 月 25 日

1.PDF 包含的信息太多了，比如嵌入私有字体都可以，想保留格式转化没啥好办法 :(
2.可以直接把所有 PDF 打印成高质量图片，markdown 贴图 :)
3.精细一点，可以把简单格式的文字转 markdwon ，不方便转表格图片其它格式就用图片，但是不知道有没有现成的自动化程序 :(

gitignore

2023 年 8 月 25 日

找个大学生帮你手工转

me221

2023 年 8 月 25 日

@elevioux #3 你的思路没问题。是我没考虑 PDF 中的图片问题，可以用 OCR 把 PDF 转为 Docx 格式，然后 embedding

elevioux

2023 年 8 月 25 日

@c2const 其实并不是想要用 markdown 来还原 pdf ，只是用 markdown 来保留 pdf 的关键信息和表格，方便 chatgpt 理解。

elevioux

2023 年 8 月 25 日

@me221 试过百度的 padddle ，错别字有点多（ pdf 主要是繁体），当然也可能是我其它参数没设置好。目前主要想法是自己训练一个 AI 来识别文档的内容，如标记哪里是表格，哪里是大段文字等，再用 pymupdf 等提取文字再合成 markdown 。不过苦于对 AI 不熟悉，用 pytorch 写了个 demo 就没有然后了，不知如何开始。

YGHMXFAL

2023 年 8 月 25 日

PANDOC 看看行不行

amlee

2023 年 8 月 25 日

https://pandoc.org/

YGHMXFAL

2023 年 8 月 25 日

看了一下,PANDOC 好像不行,InPut 格式不支持 PDF,不符合楼主需求

iX8NEGGn

2023 年 8 月 25 日

用 Abbyy Finereader 先转换成 docx ，然后再转换成 md

noahhhh

2023 年 8 月 25 日

pandagpt ，直接用能导入 PDF 的工具不好吗

elevioux

2023 年 8 月 25 日

@iX8NEGGn 感谢提供思路。试了用 acrobat 转成 docx ，再用 pandoc 转成 markdown ，是目前效果最好的。

iX8NEGGn

2023 年 8 月 25 日

@elevioux 用 Abbyy 效果还可以更好，会自动分析哪些是图片哪些是表格，也可以手动框选哪些是图片哪些是表格，Acrobat 也有用 Abbyy 家的技术。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/968162

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.