V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
顶级 AI 接口,史上最低价!
低至0.3 元/刀,已支持国内外众多热门模型,GPT、Claude 、Gemini 、DeepSeek 、豆包……
Promoted by ergou915
xboxv
V2EX  ›  问与答

有什么方便的方式 将 整个网页内容 喂给 ChatGpt/Geimini 等 AI

  •  
  •   xboxv · 10 天前 · 971 次点击

    背景

    有写 AI 不支持访问外部链接, 有些 AI 访问 url 解读的内容和实际网页的内容根本不一致.

    比如 对于这个 url https://github.com/prisma/docs/issues/6284 geimin 连 网页的标题 都没有解读 正确.

    有且网站使用了 服务端渲染技术, 所以如果你只是访问 URL, 就会得到一个 很简短的 HTML, 实际整个网页的内容是需要等待流式渲染结束之后 才能看到整个网页的实际内容, 甚至有些内容是懒加载, 需要滚动到这个位置才会渲染具体的内容. 所以像 飞书/语雀这样的网页剪切插件 试了一下无法剪贴到整个网页的内容, 只剪切到了一小部分内容.

    方案一 截屏整个网页或者 将网页保存为 pdf

    这两种方式 对于 AI 解析 PDF 或者图片都是需要使用 ocr, 他们无法读取到文字的 url 链接,网页中的文字的链接 丢失了.存在缺点.

    方案二 保存为 markdown.

    1. 简悦这个插件 不好用, 很多网站只能保存到 非常小的一部分内容. 丢三落四.
    2. obsidian 的 web 剪切插件, 目前在用这个插件来将网页保存为 markdown.

    方案三

    有一些在线将 url 转为 markdown 的网站, 试了几个效果都不理想, 他们的问题都是只获取到了部分网页内容. 大概率是因为上文提到的服务端渲染 流式传输的原因.

    问题:

    1. 有什么好的方案将 整个网页的内容喂给 ai
    2. 有什么更为好用方案将 网页转为 markdown. 对于输出的格式不关注, 关注点是网页内容不要丢失.
    9 条回复    2025-07-16 09:20:21 +08:00
    aureole999
        1
    aureole999  
       10 天前
    现在应该是 MCP 最方便吧,像 playwright 之类的。找个支持 MCP 的客户端。
    amrice
        2
    amrice  
       10 天前 via Android
    我也想知道,有了踢我
    xboxv
        3
    xboxv  
    OP
       10 天前
    @aureole999 没试过, 两个原因, 1. 我现在都是用 chrome 打开网页版的 ai, 不会去下载 cherry stuio 或者他们的客户端, 原因是不想启动其他软件来使用 ai 2. mcp 大概也是启动 浏览器抓网页吧, 感觉太重了.
    先看看有没有其他方案, 后面试试你这个好用不
    pike0002
        4
    pike0002  
       10 天前   ❤️ 2
    tamshy
        5
    tamshy  
       10 天前
    onenote 中转下?
    xboxv
        6
    xboxv  
    OP
       10 天前
    @pike0002 这个工具也是将网页转为 pdf 或者图片吧? 这种形式的文件交给 ai, ai 也是进行 ocr. 即便是可编辑模式的 pdf, 上传后 ai 也是 ocr 这个 pdf,好像并没有实际解析 pdf 文字中的链接等等信息.
    pike0002
        7
    pike0002  
       10 天前
    @xboxv 转换成 markdown 的话是会把链接放在最后的。类似于 paper 最后的引用列表
    xboxv
        8
    xboxv  
    OP
       9 天前
    @tamshy 怎么中转? 也是剪切吗?
    tamshy
        9
    tamshy  
       9 天前
    @xboxv 我能想到的是转到 onenote ,再批量导出 doc ,作为知识库喂给大模型
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2545 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 14:48 · PVG 22:48 · LAX 07:48 · JFK 10:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.