关于 Python 大量爬虫的问题，在同时爬大批量网站时，比如几万个，在服务器带宽有限的情况下如何优化

2018-04-07 10:29:27 +08:00

linhanqiu

我这里举个例子，比如要跑一万个网站，单机，带宽 4M，异步跑的话，必然会有很多网站传回响应会在带宽方面被限制，最次解决办法：是否增加网站的超时时间可以缓解，高级一点：可以通过引入队列，判断任务并发个数，来判断是否执行任务，来增加网站的传回响应时间以及减少网站丢失数据的可能性，更高级一点：你们来说！！！！

3951 次点击

所在节点

Python

9 条回复

lihongjie0209

2018-04-07 11:15:32 +08:00

再跑一台 10M 带宽的机器, 只用来下载, 下载数据直接通过 redis 之类的工具传给解析器
这样做的好处:
1. 把瓶颈分离: 下载服务器只需要关注带宽, 解析服务器只需要关注 CPU 和数据库, 配置不足升级也方便
2. 好扩展: 你可以随时添加任意数量的下载服务器

Nick2VIPUser

2018-04-07 11:34:27 +08:00

依我看最高级的就是加机器做分布式爬取，cpu 和带宽有限，这是硬性限制条件了

Kilerd

2018-04-07 11:37:46 +08:00

分布式爬，做并发限制。

cxh116

2018-04-07 11:39:30 +08:00

阿里云腾讯云不限流入带宽的。
你可以在服务器上用 wget 测试一下下载文件的速度。

ericbize

2018-04-07 11:45:26 +08:00

@cxh116 阿里云大概跑个 10MB/s , 腾讯云也就 2，3MB/s 感觉家里的宽带还快一点

julyclyde

2018-04-07 12:07:48 +08:00

用带宽测量值反馈控制并发度

linhanqiu

2018-04-07 14:15:52 +08:00

@julyclyde 这个可以

silencefent

2018-04-07 14:20:39 +08:00

现在家用宽带比服务器实惠多了 200Mbps 下行 50Mbps 上行
买个 amdRyzen+16G 跑的飞起

tempdban

2018-04-08 00:51:38 +08:00

硬要靠的话，我觉得可以参考 tcp 拥塞避免相关算法实现，慢启动，拥塞窗口

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/444806

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.