爬虫怎么能把整个网站给爬下来

2024-08-02 15:48:15 +08:00
 gaoyangang

如题:

有什么办法可以把整个网站都爬下来,包括二级页面和各种 tab, 里面包括递归和 JS 渲染,想想都头大,各位彦祖集思广益,想想办法。

4575 次点击
所在节点    程序员
30 条回复
weixind
2024-08-02 15:49:48 +08:00
爬虫爬的好,牢饭吃得饱。
crocoBaby
2024-08-02 15:53:00 +08:00
直接爬路由
9A0DIP9kgH1O4wjR
2024-08-02 15:54:37 +08:00
抓取页面中的所有连接,爬到一个页面就继续访问里面的链接,无限递归。
高级一点的就是分析 URL 结构,自己拼接 URL 抓。
FengMubai
2024-08-02 15:55:00 +08:00
试试 idm
erquren
2024-08-02 15:55:01 +08:00
是不是为了合规
gaoyangang
2024-08-02 15:55:29 +08:00
@weixind 国外网站,不慌
D0n9
2024-08-02 15:55:37 +08:00
iyiluo
2024-08-02 15:57:55 +08:00
做个链接去重不就行了,链接去重后塞进队列里面慢慢爬,不过你爬虫爬的时候小心有人敲门
gaoyangang
2024-08-02 15:59:21 +08:00
@hanierming 有些 tab 要点击,才能加载出来
wysnxzm
2024-08-02 15:59:39 +08:00
爬虫小寄巧
9A0DIP9kgH1O4wjR
2024-08-02 16:02:18 +08:00
@gaoyangang 那应该是会调接口的吧?你直接请求接口?
whoosy
2024-08-02 16:27:00 +08:00
https://github.com/projectdiscovery/katana

这种开源库应该能满足你需求吧
linhongjun
2024-08-02 16:31:47 +08:00
以前我记得还有那种网站下载的软件 就是下载整站。。。。后来就没用过了
xiangyuecn
2024-08-02 16:31:51 +08:00
无头浏览器直接正常访问渲染,想要什么数据就读什么数据,管他乱七八糟的
150530
2024-08-02 16:34:06 +08:00
http://wget.oiweb.cn/ 这种可以全站爬取
justwe7
2024-08-02 16:35:38 +08:00
楼上老哥正解,单纯为了抓页面结构展示界面的话直接 https://pptr.dev/ 加延时等待渲染后拿代码
luolw1998
2024-08-02 16:37:43 +08:00
@gaoyangang #6 国外网站直接读他们的 sitemap.xml, https://www.semrush.com/sitemap.xml
Mechanical
2024-08-02 16:43:41 +08:00
Teleport Ultra
tool2dx
2024-08-02 16:43:45 +08:00
@linhongjun 以前相关页面数据都是写在 index.html 里的。现在 index 里啥都没有,数据都是 ajax 动态读取的。
yulgang
2024-08-02 16:51:07 +08:00
Offline Explorer

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1062051

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX