分享一个用于增强 RAG 应用的模块 — Web Scraper

2024-04-15 18:10:35 +08:00

gydi

最近自己在做一个 RAG 应用，感兴趣的朋友可以尝试一下，https://www.zbyai.com

其中有一个功能是需要根据搜索到的 URL 去获取页面的具体内容，这个内容需要处理一下对 LLM 友好一点（ Token 少一点），所以我选择处理成 Markdown 。

所以就有了这么一个项目： https://github.com/zzzgydi/webscraper

原理比较简单：使用无头浏览器或者直接 GET 请求，然后用 Readability.js 进行优化，然后 html 转 markdown 。然后每个请求默认 5 秒超时。

使用：u 后面加对应的 url 链接即可。

curl https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper

也可以用 POST 请求：

curl -X POST -H "Content-Type: application/json" \
     -d '{"url_list":["https://github.com/zzzgydi/webscraper"]}' \
     https://scraper.zbyai.com/v1/scrape

可以用 demo 看看效果： https://scraper.zbyai.com/?u=https://github.com/zzzgydi/webscraper ，也可以自行 docker 部署。

2748 次点击

所在节点

分享创造

10 条回复

lchynn

2024-04-15 18:44:07 +08:00

楼主这服务好像可以代替穷人版免费科学上网 :P

gydi

2024-04-15 19:26:57 +08:00

@lchynn 实际上好像不太行，现在谁上网只能看字呢

lchynn

2024-04-15 19:44:22 +08:00

@gydi 代替需要科学上网的 rss 的啊，新闻网站或者 blog

lchynn

2024-04-15 19:45:46 +08:00

另外这个原站和最近热门的秘塔 AI 和 perplexity 对比下，好像搜索来自的信源有些差别？

chensitong

2024-04-15 19:52:48 +08:00

context deadline exceeded

curl https://scraper.zbyai.com/?u=https://next.api.aliyun.com/document/Ecs/2014-05-26/DescribeInstances

gydi

2024-04-15 20:02:04 +08:00

@chensitong https://scraper.zbyai.com/?u=https://next.api.aliyun.com/document/Ecs/2014-05-26/DescribeInstances&headless=false

你看这个就有结果了，只不过还得需要 headless （狗头，现在设置的超时时间偏短

gydi

2024-04-15 20:05:02 +08:00

@chensitong 测了一下，大概要 10 多秒才能有结果

gydi

2024-04-15 20:05:40 +08:00

@lchynn #4 你是说 zbyai.com 这个吗，现在我的用搜索是自建的 searXNG

xiaozizayang

2024-08-18 23:14:35 +08:00

@gydi #8 请问自建的 searXNG 作为搜索结果，用户量大了，这个会有频率限制吗？比如 searXNG 被源搜索引擎禁止掉

gydi

2024-08-19 13:54:42 +08:00

@xiaozizayang 这个我目前还没有遇到，所以不清楚

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1032706

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.