有办法将 pdf 转成 markdown 吗?

258 天前
 elevioux

试了下网上的几个工具,结果出来都不太理想。

pdf 都是一些产品说明介绍,有各种图表图片等,排版复杂没有规律。

想着能不能把产品 pdf 的主要内容,表格之类的转成 markdown ,方便后续 embedding 喂给 chatgpt 。

又或者 pdf to markdown 这一步需要单独训练个 AI 出来?如何开始,大家有思路吗?

2139 次点击
所在节点    问与答
19 条回复
me221
258 天前
pdf 可以直接 embedding 给 ChatGPT 呀
SWALLOWW
258 天前
@me221 怎么嵌入啊,怎么给文件,图片这些信息啊
elevioux
258 天前
@me221 如果我理解没问题的话,embedding 本身只是用于语义搜索,搜索出来的结果必须要有对应的原文本才好给到 chatgpt 处理。如果 pdf 转 markdown 不理想的话,chatgpt 拿到文本也是很难理解。还是我思路有问题?望指教
fzls
258 天前
@elevioux #3 下面这个网站可以直接喂 pdf

https://www.chatpdf.com/
yekern
258 天前
pdf 转 html 转 markdown 不可以么
elevioux
258 天前
@fzls 知道有这个网站,试了一下,有些问题还是回答不了,说文本没有提到。。。。
elevioux
258 天前
@yekern 有想到过,也试过,还是表格形式的数据难以转换。pdf 的排版太没规律了,我们人眼看起来是个表格,转成 html ,就成了各种 div 的拼凑。
c2const
258 天前
1.PDF 包含的信息太多了,比如嵌入私有字体都可以,想保留格式转化没啥好办法 :(
2.可以直接把所有 PDF 打印成高质量图片,markdown 贴图 :)
3.精细一点,可以把简单格式的文字转 markdwon ,不方便转表格图片其它格式就用图片,但是不知道有没有现成的自动化程序 :(
gitignore
258 天前
找个大学生帮你手工转
me221
258 天前
@elevioux #3 你的思路没问题。是我没考虑 PDF 中的图片问题,可以用 OCR 把 PDF 转为 Docx 格式,然后 embedding
elevioux
258 天前
@c2const 其实并不是想要用 markdown 来还原 pdf ,只是用 markdown 来保留 pdf 的关键信息和表格,方便 chatgpt 理解。
elevioux
258 天前
@me221 试过百度的 padddle ,错别字有点多( pdf 主要是繁体),当然也可能是我其它参数没设置好。目前主要想法是自己训练一个 AI 来识别文档的内容,如标记哪里是表格,哪里是大段文字等,再用 pymupdf 等提取文字再合成 markdown 。不过苦于对 AI 不熟悉,用 pytorch 写了个 demo 就没有然后了,不知如何开始。
YGHMXFAL
258 天前
PANDOC 看看行不行
amlee
258 天前
YGHMXFAL
258 天前
看了一下,PANDOC 好像不行,InPut 格式不支持 PDF,不符合楼主需求
iX8NEGGn
258 天前
用 Abbyy Finereader 先转换成 docx ,然后再转换成 md
noahhhh
258 天前
pandagpt ,直接用能导入 PDF 的工具不好吗
elevioux
258 天前
@iX8NEGGn 感谢提供思路。试了用 acrobat 转成 docx ,再用 pandoc 转成 markdown ,是目前效果最好的。
iX8NEGGn
257 天前
@elevioux 用 Abbyy 效果还可以更好,会自动分析哪些是图片哪些是表格,也可以手动框选哪些是图片哪些是表格,Acrobat 也有用 Abbyy 家的技术。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/968162

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX