（请教）如何提高爬虫的效率/采集速度

2018-01-04 11:55:55 +08:00

Nick2VIPUser

最近做了一个爬虫任务，大概需要采集百万级的页面。使用如下技术：

python3
requests
xpath(解析)
多线程(threading)
代理 ip 池(95%有效，10 次 /1s 最多)
redis(请求队列, 去重)
mysql(储存)

同时做好容错处理(重连)/反爬机制应对。经过几次测试：控制

 [线程数量] 
 [进程数量] 
 [重连等待时间] 
 [报错等待时间]

得出一组每分钟采集最多数量的方案。似乎遇到了瓶颈，此时不知道如何去优化采集速度。没有想到的等会补充。。。请教有经验的大神指点一下思路！谢谢各位了！！！

11444 次点击

所在节点

程序员

51 条回复

Nick2VIPUser

2018-01-04 19:03:42 +08:00

@qsnow6 您是否了解质量好点的代理 ip，如果方便透露可以讲一下，目前付费购买的这家感觉质量还是提不上来...

qsnow6

2018-01-04 19:10:18 +08:00

https://www.v2ex.com/t/138956

WuMingyu

2018-01-04 19:35:12 +08:00

用协程的话可以试试这个 https://github.com/6ugman/ant_nest，速度比 scrapy 快？（不确定，没有精确测试）不过很可能有 bug😅

anasplrt34

2018-01-04 20:33:08 +08:00

爬过十亿级数据的来吐个槽要想速度快加机器加 IP 只有两条路其他的比如什么优化什么异步多进程多协程线程都没什么作用就比如一个网站限制单个 IP 一秒访问一次你代码写出花来一秒也只能请求一次这不是客户端也不算服务端这是爬虫最大的问题所以还是加钱吧

Nick2VIPUser

2018-01-04 20:49:10 +08:00

@qsnow6 谢谢🙏！！

Nick2VIPUser

2018-01-04 20:50:43 +08:00

@anasplrt34 您很幽默，说到点上了，我折腾了一天，现在才想清楚，不过收获很大，谢谢！！

Nick2VIPUser

2018-01-04 20:51:46 +08:00

@WuMingyu 好的，谢谢！今天一天收获了好多好东西😁

easylee

2018-01-04 23:41:45 +08:00

来学习了，Mark~

anexplore

2018-01-04 23:50:58 +08:00

如果你每个线程都要休息 3s 的话，为啥要搞多线程呢？一个线程不就行了嘛，单线程异步 IO + 代理 IP 即可，根据带宽以及代理量控制并发，

PythonAnswer

2018-01-05 00:41:45 +08:00

协程节约点资源。

不过你的 ip 池质量不行，速度提高不了。

goodryb

2018-01-05 10:54:36 +08:00

为啥不能增加物理资源，开个 10 台机器，效率不就提高 10 倍了，有时候真不要死脑经，先把事情解决了再说。

按照你的说法，假设 1 台主机需要 3 个月（ 90 天），提高 10 倍之后，就需要 9 天，一周多就搞完了。

如果你今天在这里问了这么多，回去修改代码，换框架，验证，一周后搞出个新程序来，效率提高了 10 倍，那你需要的时间是 7+9 = 16 天

所以呢，技术不够，机器来凑，云主机按量付费也没多少，如果你爬回来的数据连这点机器的钱都不值得，那我估计更不值得你投入这么大的人力去搞这个东西。

第 3 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/419951

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.