跑爬虫程序, 每天都要跑几千万条数据, 公司想要租个服务器,V 友们可有什么推荐 ?

2018 年 8 月 27 日
 studyaa

爬虫需求后期会很大,速度要快

4213 次点击
所在节点    问与答
9 条回复
summerwar
2018 年 8 月 27 日
信息太少,没法推荐
ToT
2018 年 8 月 27 日
能不能提供一些基本数字估计。当你写出来的时候,可能也就知道答案了。

参看 http://highscalability.com/blog/2011/1/26/google-pro-tip-use-back-of-the-envelope-calculations-to-choo.html
hundan
2018 年 8 月 28 日
借楼问一下,如果要做扫全球 ip 这种大流量出口的工作,有没有好的推荐,不会被封不会被警告的,出口带宽大的
msg7086
2018 年 8 月 28 日
需求后期会很大 —— 多大?
速度要快 —— 多快?
钱有多少?
流量要用多少?
IP 要多少个?要频繁换吗?
要做分布式节点吗?
国内外都要吗?

@hundan 最好不要寄希望于单个节点。
studyaa
2018 年 8 月 28 日
@msg7086
五六个小时要跑几千万数据,
ip 肯定要频繁换,多少个的话我也不太清楚怎么算,一个首页面一个?几十万个?
分布式不太懂
国外的不需要
价钱的话公司没说,就说做下来所需要的配置..

还有感谢回答!
studyaa
2018 年 8 月 28 日
@summerwar 每天需要大概五六个小时跑几千万数据, 会用到 selenium
服务器的配置也跟所需代理 ip 有关吗?
对服务器不太懂
为什么都需要在服务器上跑爬虫

感谢之前的回答!
studyaa
2018 年 8 月 28 日
@ToT 嗯嗯! 我看看
msg7086
2018 年 8 月 28 日
@studyaa 嗯,需求超出了我的能力范围,没法回答你了。
tennc
2018 年 8 月 28 日
正规的服务器跑爬虫都会被封吧,要找就找那些 black 服务器

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/483788

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX