[有偿] 征大型爬虫的技术指导

我第一次接手一个比较大型的爬虫任务，要爬取一个千万级别的网站，所以要用到scrapy+redis多线程，分布式抓取，服务器配置等等，想找一个有这种经验的人讨教。我明白时间宝贵，所以愿意出钱作为学费，而且只需您辅助我的工作过程，给予一些指导。

mhycy

2015 年 2 月 26 日

爬的是哪个站？有多少资源可用？

iannil

2015 年 2 月 26 日

可以参考我这个回复 http://v2ex.com/t/127220#reply5

laotaitai

2015 年 2 月 27 日

直接外包给我吧. 不过哈, 一般情况下, 少于5W的项目我不接. 哥是专业的玩爬虫的. 我写过爬取全世界60%左右连了网的电脑, 一共收集了3亿的资源的. 对, 你没看错, 就是爬你们的电脑, 不是爬网站.

xiaobo

2015 年 2 月 27 日

@laotaitai 请问如何做到的个人电脑资料难道是通过木马收集的那全球60%的电脑得多少，不科学啊

njutree

2015 年 2 月 27 日

@laotaitai 那么问题来了，全世界有多少电脑？

mrhuiyu

2015 年 2 月 27 日

@laotaitai 话说···爬电脑？首先不礼貌的冒问一下···今天不是愚人节？额·····好吧那请问····假设电脑关机和非管理员用户登录电脑后无法访问指点盘符，那爬虫可以进去访问？

joshryo

2015 年 2 月 27 日

3楼太谦虚了，居然还有40%连了网的电脑没爬。

xidianlz

2015 年 2 月 27 日

3楼说的是扫描比较好吧不算爬虫

xFan

2015 年 2 月 27 日

3楼歪楼以后没人理楼主了...

你们赶紧正回来,.

angerskon

2015 年 2 月 27 日

3楼说的3亿的资源是指的3亿台电脑吗？照你说的60%来算，也就是说全球5亿左右的计算机联网。ipv4的地址一共42亿左右，除掉一些保留的，怎么也不止5亿吧。

crazycookie

2015 年 2 月 27 日

楼上都被 3楼带歪了
其实有偿指导也是一件比较 bug的事情
这种分布式我在做，确实 scrapy + redis 可以完成这些
我用linode跑的国外的站，4台服务器，还算稳定

lucn

2015 年 2 月 27 日

scrapy开发成本高，pyspider半小时搞定

gouwudang

2015 年 2 月 27 日

楼主可以来我司工作，每天得爬上亿条数据

gouwudang

2015 年 2 月 27 日

@gouwudang 不用交钱，我们给你钱

cxl008

2015 年 2 月 27 日

scrapy+mongodb+redis 的方案分布40台机器。。爬取国内200多个安卓市场。。。。。。。。数据量到1亿左右。。没有3楼那么牛逼了。。。。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/173056

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.