[有偿] 征大型爬虫的技术指导

2015 年 2 月 26 日
 professorz
我第一次接手一个比较大型的爬虫任务,要爬取一个千万级别的网站,所以要用到scrapy+redis多线程,分布式抓取,服务器配置等等,想找一个有这种经验的人讨教。我明白时间宝贵,所以愿意出钱作为学费,而且只需您辅助我的工作过程,给予一些指导。
10058 次点击
所在节点    Python
45 条回复
mhycy
2015 年 2 月 26 日
爬的是哪个站?有多少资源可用?
iannil
2015 年 2 月 26 日
可以参考我这个回复 http://v2ex.com/t/127220#reply5
laotaitai
2015 年 2 月 27 日
直接外包给我吧. 不过哈, 一般情况下, 少于5W的项目我不接. 哥是专业的玩爬虫的. 我写过爬取全世界60%左右连了网的电脑, 一共收集了3亿的资源的. 对, 你没看错, 就是爬你们的电脑, 不是爬网站.
xiaobo
2015 年 2 月 27 日
@laotaitai 请问如何做到的 个人电脑资料 难道是通过木马收集的 那全球60%的电脑 得多少,不科学啊
njutree
2015 年 2 月 27 日
@laotaitai 那么问题来了,全世界有多少电脑?
fising
2015 年 2 月 27 日
3楼吹牛逼不打草稿
mrhuiyu
2015 年 2 月 27 日
@laotaitai 话说···爬电脑?首先不礼貌的冒问一下···今天不是愚人节?额·····好吧那请问····假设电脑关机和非管理员用户登录电脑后无法访问指点盘符,那爬虫可以进去访问?
jedyu
2015 年 2 月 27 日
3楼是爬IP吧?
mozutaba
2015 年 2 月 27 日
3楼是爬ip的开放服务?
joshryo
2015 年 2 月 27 日
3楼太谦虚了,居然还有40%连了网的电脑没爬。
xidianlz
2015 年 2 月 27 日
3楼说的是扫描比较好吧 不算爬虫
xFan
2015 年 2 月 27 日
3楼歪楼以后没人理楼主了...

你们赶紧正回来,.
angerskon
2015 年 2 月 27 日
3楼说的3亿的资源是指的3亿台电脑吗?照你说的60%来算,也就是说全球5亿左右的计算机联网。ipv4的地址一共42亿左右,除掉一些保留的,怎么也不止5亿吧。
thinkmore
2015 年 2 月 27 日
3楼就是来骗回复的
crazycookie
2015 年 2 月 27 日
楼上都被 3楼带歪了
其实有偿指导也是一件 比较 bug的事情
这种分布式我在做,确实 scrapy + redis 可以完成这些
我用linode跑的国外的站,4台服务器,还算稳定
binux
2015 年 2 月 27 日
千万级别不算大型啊。。。
lucn
2015 年 2 月 27 日
scrapy开发成本高,pyspider半小时搞定
gouwudang
2015 年 2 月 27 日
楼主可以来我司工作,每天得爬上亿条数据
gouwudang
2015 年 2 月 27 日
@gouwudang 不用交钱,我们给你钱
cxl008
2015 年 2 月 27 日
scrapy+mongodb+redis 的方案 分布40台机器。。 爬取国内200多个安卓市场。。。。。。。。数据量到1亿左右。。没有3楼那么牛逼了。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/173056

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX