关于爬虫并发量的疑问

2020-07-13 20:33:48 +08:00
 winnerczwx
我在使用 scrapy 框架的过程中发现并发量上不去, 大概每秒 50 左右...想了解一下爬虫并发量除了跟网络, 源站点, 业务逻辑以外, 还有哪些因素会影响并发量呢?

1. 框架的并发设置是 500( 实际只有 50 )
2. 源网站性能应该是没问题的
3. 带宽 100M(实际并跑不满, 每秒大概只有 1M 左右)
4. 业务没有复杂逻辑, 页面下载完后就两个 xpath, 2 个正则, 然后就入库了
5. 硬盘是阿里云的云盘, 大概是 1240 IOPS 左右
6. 服务器 cpu 是 2 核的 (不知道是不是因为配置太低成为了瓶颈)

求大佬们解惑
3076 次点击
所在节点    Python
22 条回复
Kvip
2020-07-20 16:54:51 +08:00
还是各位大佬勇啊,我搞爬虫从来不敢搞那么大并发,我开线程都不敢超过 50 个。一是人家运营网站也不容易,我们算是白嫖就别那么过分。其次是并发量太大,人家后台很容易看出来的,哪天被找上门了都没得后悔,毕竟很多爬虫都是违法的。
2088TXT
2020-07-24 10:55:41 +08:00
原则上不遵守 robots.txt 的不都是恶意爬虫 ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/689698

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX