chatgpt 到底能不能读 pdf 的内容？

This topic created in 862 days ago, the information mentioned may be changed or developed.

gpt4 ，氪金用户。

在上传 pdf 的那一条问题里，他是可以给出相关回答的；但是过几条之后，他就完全不根据 pdf 的内容来回答了啊。

他自己说他不会看 pdf 。他胡扯呢还是真的？？
It seems there was a misunderstanding in my ability to process your request directly from the PDF content. I cannot read or extract detailed technical information from PDF files or any documents directly in real-time. My responses are generated based on the information and training I have received up to my last update in April 2023.

PDF

内容

回答

10 replies • 2024-03-09 04:17:13 +08:00

wesleywaters

Mar 7, 2024

我的感受是它会读，但和它后续的对话时，每个问题可能都要小心地做好限定，否则它容易自由发挥，而且不会还不会告诉你它不是依据文本回答的。

vacuitym

Mar 7, 2024

你要告诉他从你上传的 pdf ，不然这种其实走的是 assistant ，官方写的是它会自动根据情况筛选记录进入上下文，有可能是回答这条的时候那条 pdf 的信息没进入上下文（以上皆为猜测原因）

Qiane

Mar 7, 2024

首先你要保证 PDF 内的文字是可搜索的，也就是 OCR 处理过的文档

dream4ever

Mar 7, 2024

试试月之暗面做的： https://kimi.moonshot.cn/ 最近刚看到

cnoder

Mar 7, 2024

用 aipdf 先 ocr

SculptureSand

Mar 7, 2024 via Android

寒假没放成，它估计烦了
我最近只要语气不好点它就直接说它不会
“马的，你到底读没读这个网页”
“抱歉，我无法阅读网页内容，我只能凭我的知识去解答”

“请问你能读一下这个网页吗，openai 现在似乎不显示 browser 图标了”
然后回答了

1StpKlosr2Me

Mar 7, 2024

chatPDF https://www.chatpdf.com/

itwardhalfacree

Mar 8, 2024

我最近有同样的问题，使用 GPT4 读论文时，发现它接收了 PDF 之后，经常不根据文档内容回答，而是使用自己的通识回答问题，导致很多时候答非所问。在 OpenAI 的论坛上搜索了一圈，发现很多人有同样的问题。

总结来说，原因有几点。首先是隐私政策：如果你问 GPT4 的 browse file technical restrictions 时，它会告诉你它不能直接读文档，文档会被矢量化并存入数据库，并且 GPT 所有读文档操作都是通过`myfiles_browser`这种接口来控制，大大限制了它浏览大段文字以及结合前后文回答问题的能力。

其次是 PDF 文件解析问题。根据 OpenAI 论坛上的说法，OpenAI 疑似将 PDF 文件当成 txt 文件进行内容解析了，所以很多 PDF 的转义字符也被存在了 memory 里干扰了文件浏览。帖子里有人提到将 PDF 内容解析为 txt 或 markdown 能显著提高回答精准度，我尝试了确实如此，但依然受限于前面提到的隐私政策，无法结合前后文大段内容进行回答。

我现在使用国产 LLM 来读文档，经过测试，智谱清言，讯飞星火和通义千问在 PDF 问答方面特别好，至少是能够真的结合文档中的真实内容回答，估计是直接将解析的文档内容作为输入 tokens 的一部分了。其他第三方 LLM + langchain 网站也用了不少，但实际体验感都不太行。

其中，个人主观感觉文档问答能力千问 > 清言 > 星火。文心一言不知道怎么回事，也无法直接阅读文档的具体内容，只能回答一个模糊的大致情况。

以上内容是我琢磨出来，如果谁还有好的方法，麻烦踢我一脚（拜托了，LLM 读文献真的很有帮助）

yijiaodada

Mar 8, 2024

@itwardhalfacree 感谢分享

lamquan

Mar 9, 2024 via Android

@yijiaodada 确实，本地弄了一个，用的千问 1.5 14b 的模型，跑起来挺好的