目标网站完全没有反爬机制,是否有必要设置 DOWNLOAD_DELAY?

2018-01-17 15:00:07 +08:00
 frank065
用 Scrapy 爬取一个理财网站,基本上每天都要爬两次来更新数据。
网站完全没有反爬虫机制,测试的时候,不换 user agent,不设置 DOWNLOAD_DELAY,不需要代理 IP,爬了好几次都没有被封。总共 2000 条左右的数据,基本 1 分钟就爬完了。
这种情况下是否有必要设置 DOWNLOAD_DELAY ?会不会给网站带来压力?如果需要,大家一般设置多少?
另外大家反爬虫一般都设置什么?萌新求老人带。
5186 次点击
所在节点    Python
13 条回复
bazingaterry
2018-01-17 15:05:54 +08:00
现在没有反爬不代表将来没有,隐藏好自己也很重要。

如果对抓取速度没要求肯定是设置一下 download delay 或者限制一下并发,别把网站抓跨了得不偿失。
crab
2018-01-17 15:09:12 +08:00
除非你只爬完这次,不然日后还要继续爬,尽可能伪装成正常访客啊。
黑客入侵完都要帮忙做安全打补丁呢
frank065
2018-01-17 15:15:02 +08:00
@bazingaterry @crab DOWNLOAD_DELAY 一般设置多少合适咧?除了常见的 1.设置 DOWNLOAD_DELAY 2.禁止 cookies 3.更换 user agent 4.代理 IP,请问还有其他常见的伪装技巧吗?
yanzixuan
2018-01-17 15:17:27 +08:00
适度吧。不要把人家玩坏了。逼别人上变态反爬。
Applenice
2018-01-17 15:23:59 +08:00
你就是装,也要装成 N 个人访问啊,人家哪天看到你天天爬数据,上了反爬,你还得改代码
HarveyDent
2018-01-17 15:52:02 +08:00
要,说不定数据一多,你的爬虫把他们网站拖垮了呢
voidtools
2018-01-17 15:56:34 +08:00
@crab 打补丁。建立共生关系 搞一家人吗哈哈
leavic
2018-01-17 15:58:36 +08:00
只要一次爬完爬不挂,就算了吧。
Gimini
2018-01-17 16:00:31 +08:00
不反爬哪天发现了给你丢脏数据...
ilovebaicai
2018-01-17 16:35:10 +08:00
数据量不多,DOWNLOAD_DELAY 设置久一点,加一个 user-agent。 如果有条件放几个代理 ip。说不好那天就把你 ip 封了。
Len1133
2018-01-17 16:52:29 +08:00
加上吧,别把人家搞的不舒服
beforeuwait
2018-01-17 22:48:19 +08:00
对啊,人家没有反爬,处于道义,不要影响别的用户正常访问,还是需要设置 delay 的
julyclyde
2018-01-18 16:39:48 +08:00
楼上说的对

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/423634

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX