有什么方便的方式 将 整个网页内容 喂给 ChatGpt/Geimini 等 AI

2025 年 7 月 15 日
 xboxv

背景

有写 AI 不支持访问外部链接, 有些 AI 访问 url 解读的内容和实际网页的内容根本不一致.

比如 对于这个 url https://github.com/prisma/docs/issues/6284 geimin 连 网页的标题 都没有解读 正确.

有且网站使用了 服务端渲染技术, 所以如果你只是访问 URL, 就会得到一个 很简短的 HTML, 实际整个网页的内容是需要等待流式渲染结束之后 才能看到整个网页的实际内容, 甚至有些内容是懒加载, 需要滚动到这个位置才会渲染具体的内容. 所以像 飞书/语雀这样的网页剪切插件 试了一下无法剪贴到整个网页的内容, 只剪切到了一小部分内容.

方案一 截屏整个网页或者 将网页保存为 pdf

这两种方式 对于 AI 解析 PDF 或者图片都是需要使用 ocr, 他们无法读取到文字的 url 链接,网页中的文字的链接 丢失了.存在缺点.

方案二 保存为 markdown.

  1. 简悦这个插件 不好用, 很多网站只能保存到 非常小的一部分内容. 丢三落四.
  2. obsidian 的 web 剪切插件, 目前在用这个插件来将网页保存为 markdown.

方案三

有一些在线将 url 转为 markdown 的网站, 试了几个效果都不理想, 他们的问题都是只获取到了部分网页内容. 大概率是因为上文提到的服务端渲染 流式传输的原因.

问题:

  1. 有什么好的方案将 整个网页的内容喂给 ai
  2. 有什么更为好用方案将 网页转为 markdown. 对于输出的格式不关注, 关注点是网页内容不要丢失.
1677 次点击
所在节点    问与答
9 条回复
aureole999
2025 年 7 月 15 日
现在应该是 MCP 最方便吧,像 playwright 之类的。找个支持 MCP 的客户端。
amrice
2025 年 7 月 15 日
我也想知道,有了踢我
xboxv
2025 年 7 月 15 日
@aureole999 没试过, 两个原因, 1. 我现在都是用 chrome 打开网页版的 ai, 不会去下载 cherry stuio 或者他们的客户端, 原因是不想启动其他软件来使用 ai 2. mcp 大概也是启动 浏览器抓网页吧, 感觉太重了.
先看看有没有其他方案, 后面试试你这个好用不
pike0002
2025 年 7 月 15 日
tamshy
2025 年 7 月 15 日
onenote 中转下?
xboxv
2025 年 7 月 15 日
@pike0002 这个工具也是将网页转为 pdf 或者图片吧? 这种形式的文件交给 ai, ai 也是进行 ocr. 即便是可编辑模式的 pdf, 上传后 ai 也是 ocr 这个 pdf,好像并没有实际解析 pdf 文字中的链接等等信息.
pike0002
2025 年 7 月 15 日
@xboxv 转换成 markdown 的话是会把链接放在最后的。类似于 paper 最后的引用列表
xboxv
2025 年 7 月 16 日
@tamshy 怎么中转? 也是剪切吗?
tamshy
2025 年 7 月 16 日
@xboxv 我能想到的是转到 onenote ,再批量导出 doc ,作为知识库喂给大模型

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1145174

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX