有没有软件支持有间隔时间地批量下载网页

2015-10-30 20:59:22 +08:00
 kevin335200

如题,防止 Access Denyed
感谢回复

1725 次点击
所在节点    问与答
5 条回复
kevin335200
2015-10-30 21:01:02 +08:00
PS ,不会爬虫技术。。
RockyLee
2015-10-31 09:13:06 +08:00
Access Denied 的原因是你没有访问权限或 IP 被封了,等待时间可能没有用。

批量下载网站的方法:
1.wget 命令行工具
wget -r -np -k -p -c -t 10 -T 120 --random-wait http://a.com

2.Teleport
http://www.tenmax.com/teleport/home.htm
kevin335200
2015-10-31 15:31:48 +08:00
谢谢,然而我还是没有解决问题:
标题表述不准确,我的时间间隔需求是为了防止抓取过快而触发 ip 禁止;
teleport 研究了大半天竟然并没有发现可以设置抓取一个页面后可以等待多少毫秒这样的设定位置,只有设置线程数
wget 对于有些网站会直接提示 502 ,尽管这网站不是 https 的且也是能上的
kevin335200
2015-11-08 05:32:44 +08:00
比如说,对 v2 就不能 wget 网址。会提示 502.原因不清楚
kevin335200
2015-11-21 00:38:38 +08:00
很多网站都不能 wget 。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/232370

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX