做爬虫 首先考虑用高并发?

2022-09-21 12:29:28 +08:00
 azev
除非遇到限制才会搞延时仿真?
高并发一般怎么个高法 同时发出去多少个请求呢?
1152 次点击
所在节点    问与答
11 条回复
superrichman
2022-09-21 12:33:43 +08:00
首先考虑刑法
azev
2022-09-21 12:40:54 +08:00
@superrichman 给你一个赞
kera0a
2022-09-21 12:43:52 +08:00
不是海量数据+海量代理 IP ,没必要考虑并发问题。
我爬过的大站点都有频率限制,小站点扛不住并发,基本没条件去高并发爬。
herozzm
2022-09-21 12:56:31 +08:00
首先考虑的是 ip 库,爬虫很容易被封 ip 的
picone
2022-09-21 13:05:26 +08:00
看瓶颈在哪。如果爬取的数据没有时效性,慢慢爬就行了
xiao109
2022-09-21 13:26:11 +08:00
首先考虑可以爬,像 mvnrepository.com 这种站点你连第一步都展开不了
gumupaier
2022-09-21 17:28:09 +08:00
首先考虑如何进去
lyang
2022-09-21 17:30:08 +08:00
我看刑
gezimonkey
2022-09-21 17:32:36 +08:00
首先考虑不被抓
IvanLi127
2022-09-21 17:44:59 +08:00
首先考虑如何不影响对方业务,避免变成攻击行为。。。。
abc0123xyz
2022-09-22 09:17:37 +08:00
考虑蹬缝纫机

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/881846

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX