有 50w+完全不一样的网址要爬，用 requests 还是 scrapy？

2017-08-17 11:16:17 +08:00

qq12345454

这 50w+的网址，完全不重复，而且只爬个首页

大家觉得用 requests 还是 scrapy ？

能说说这种场景下，两者的优势吗？

谢谢

2122 次点击

所在节点

10 条回复

bazingaterry

2017-08-17 12:25:53 +08:00

一个是爬虫框架，一个是 HTTP Client 库，有得比吗？

除非是很不熟悉 Python，不然果断 Scrapy 啊。

e9e499d78f

2017-08-17 12:48:48 +08:00

wget

cdwyd

2017-08-17 13:00:18 +08:00

才 50w，requests 就行

tennc

2017-08-17 14:29:48 +08:00

requests 遍历打开网址，只存储首页~ 就好了~~

misaka19000

2017-08-17 14:30:23 +08:00

50w，没什么区别

misaka19000

2017-08-17 14:30:42 +08:00

熟悉哪个用哪个

liangmishi

2017-08-17 14:54:46 +08:00

感觉两者都可以，还可以用 aiohttp 这个异步库，50 万不用多久就可以跑完了

terrawu

2017-08-17 15:03:21 +08:00

像这种逻辑不复杂又追求速度的话，elrang 或者 go。我的结果是，主流方案中 erlang 效果最佳。

wlsnx

2017-08-17 15:49:06 +08:00

没区别

fiht

2017-08-17 20:49:28 +08:00

最省心的解决办法应该是给我 500 块我给你数据。
不信的话你自己试试看 =、=

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

有 50w+完全不一样的网址要爬， 用 requests 还是 scrapy？