我在使用 scrapy 框架的过程中发现并发量上不去, 大概每秒 50 左右...想了解一下爬虫并发量除了跟网络, 源站点, 业务逻辑以外, 还有哪些因素会影响并发量呢?
1. 框架的并发设置是 500( 实际只有 50 )
2. 源网站性能应该是没问题的
3. 带宽 100M(实际并跑不满, 每秒大概只有 1M 左右)
4. 业务没有复杂逻辑, 页面下载完后就两个 xpath, 2 个正则, 然后就入库了
5. 硬盘是阿里云的云盘, 大概是 1240 IOPS 左右
6. 服务器 cpu 是 2 核的 (不知道是不是因为配置太低成为了瓶颈)
求大佬们解惑
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/689698
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.