怎样提高这种爬虫的速度。

2017-05-22 19:27:55 +08:00
 YingJie
100+万 IP,内外网都有,想批量验证状态(80 端口),并写入文件(IP)。不用 nmap。Python 实现,能给个思路吗,如果是 Python 推荐哪些库(多进程+协程?requests?grequests?sock?Scapy?);如果用 Golang ……弱弱的问一句 Golang 有优势吗?
这种需求是不是也属于爬虫范围?
谢谢!
1507 次点击
所在节点    问与答
9 条回复
panyanyany
2017-05-22 19:45:09 +08:00
弱弱地问一句这 100+万 IP 哪来的啊……可用率有多少?
golmic
2017-05-22 19:48:15 +08:00
scrapy
popu111
2017-05-22 19:49:12 +08:00
Golang 的话 Goroutine 的实现简易度确实高得多,写这种简单的并发应用用 golang 是个相当棒的选择
dongxiaozhuo
2017-05-22 19:56:09 +08:00
zmap ?
YingJie
2017-05-22 20:58:22 +08:00
@panyanyany 初略估计 10%
YingJie
2017-05-22 20:59:04 +08:00
@dongxiaozhuo 尝试了,用不起来……
aip
2017-05-22 21:00:44 +08:00
这个。。。关键难道不是带宽么?带宽足够的话,并发一万个进程。。。。
YingJie
2017-05-22 21:03:32 +08:00
@aip 嗯,在带宽一定的情况下,想怎样提高效率,所以问问……
nicoljiang
2017-05-23 20:32:05 +08:00
1、你用的 ADSL VPS 的网络质量和机器稳定性,以及 VPS 的数量;
2、反爬策略;
3、爬虫后端的数据处理能力。

以上是开玩笑的,真正的瓶颈就在能投入多少钱。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/363038

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX