V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ttgo
V2EX  ›  OpenAI

chatgpt 到底能不能读 pdf 的内容?

  •  
  •   ttgo · 52 天前 · 1145 次点击
    这是一个创建于 52 天前的主题,其中的信息可能已经有所发展或是发生改变。
    gpt4 ,氪金用户。

    在上传 pdf 的那一条问题里,他是可以给出相关回答的;但是过几条之后,他就完全不根据 pdf 的内容来回答了啊。

    他自己说他不会看 pdf 。他胡扯呢还是真的??
    It seems there was a misunderstanding in my ability to process your request directly from the PDF content. I cannot read or extract detailed technical information from PDF files or any documents directly in real-time. My responses are generated based on the information and training I have received up to my last update in April 2023.
    10 条回复    2024-03-09 04:17:13 +08:00
    wesleywaters
        1
    wesleywaters  
       52 天前
    我的感受是它会读,但和它后续的对话时,每个问题可能都要小心地做好限定,否则它容易自由发挥,而且不会还不会告诉你它不是依据文本回答的。
    vacuitym
        2
    vacuitym  
       52 天前
    你要告诉他从你上传的 pdf ,不然这种其实走的是 assistant ,官方写的是它会自动根据情况筛选记录进入上下文,有可能是回答这条的时候那条 pdf 的信息没进入上下文(以上皆为猜测原因)
    Qiane
        3
    Qiane  
       52 天前
    首先你要保证 PDF 内的文字是可搜索的,也就是 OCR 处理过的文档
    dream4ever
        4
    dream4ever  
       52 天前   ❤️ 1
    试试月之暗面做的: https://kimi.moonshot.cn/ 最近刚看到
    cnoder
        5
    cnoder  
       52 天前
    用 aipdf 先 ocr
    SculptureSand
        6
    SculptureSand  
       52 天前 via Android
    寒假没放成,它估计烦了
    我最近只要语气不好点它就直接说它不会
    “马的,你到底读没读这个网页”
    “抱歉,我无法阅读网页内容,我只能凭我的知识去解答”

    “请问你能读一下这个网页吗,openai 现在似乎不显示 browser 图标了”
    然后回答了
    1StpKlosr2Me
        7
    1StpKlosr2Me  
       52 天前   ❤️ 1
    itwardhalfacree
        8
    itwardhalfacree  
       51 天前   ❤️ 1
    我最近有同样的问题,使用 GPT4 读论文时,发现它接收了 PDF 之后,经常不根据文档内容回答,而是使用自己的通识回答问题,导致很多时候答非所问。在 OpenAI 的论坛上搜索了一圈,发现很多人有同样的问题。

    总结来说,原因有几点。首先是隐私政策:如果你问 GPT4 的 browse file technical restrictions 时,它会告诉你它不能直接读文档,文档会被矢量化并存入数据库,并且 GPT 所有读文档操作都是通过`myfiles_browser`这种接口来控制,大大限制了它浏览大段文字以及结合前后文回答问题的能力。

    其次是 PDF 文件解析问题。根据 OpenAI 论坛上的说法,OpenAI 疑似将 PDF 文件当成 txt 文件进行内容解析了,所以很多 PDF 的转义字符也被存在了 memory 里干扰了文件浏览。帖子里有人提到将 PDF 内容解析为 txt 或 markdown 能显著提高回答精准度,我尝试了确实如此,但依然受限于前面提到的隐私政策,无法结合前后文大段内容进行回答。

    我现在使用国产 LLM 来读文档,经过测试,智谱清言,讯飞星火和通义千问在 PDF 问答方面特别好,至少是能够真的结合文档中的真实内容回答,估计是直接将解析的文档内容作为输入 tokens 的一部分了。其他第三方 LLM + langchain 网站也用了不少,但实际体验感都不太行。

    其中,个人主观感觉文档问答能力 千问 > 清言 > 星火。文心一言不知道怎么回事,也无法直接阅读文档的具体内容,只能回答一个模糊的大致情况。

    以上内容是我琢磨出来,如果谁还有好的方法,麻烦踢我一脚(拜托了,LLM 读文献真的很有帮助)
    yijiaodada
        9
    yijiaodada  
       51 天前
    @itwardhalfacree 感谢分享
    lamquan
        10
    lamquan  
       50 天前 via Android
    @yijiaodada 确实,本地弄了一个,用的千问 1.5 14b 的模型,跑起来挺好的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1307 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 17:37 · PVG 01:37 · LAX 10:37 · JFK 13:37
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.