继续付费找爬虫牛人啊

2019-05-28 09:38:06 +08:00
 zinfinb

把需求里 最核心的两个技术性的难点问题再说明一下

对性能(实时性)有非常高的要求, 抓取到的新闻 最多 1s 内的延迟

再就是部分抓取网站有 websocket 的接口推送新闻的,这个需要搞定

能够解决上面两个问题的联系我,最好是有实际相关项目经验的

开发费用 1w,维护费用 5k/年,服务器硬件还有代理部分预算支出在 2w/年 ,

爬取网站 10 个左右,爬取时间一天 6 小时

联系方式 球球:196063

4529 次点击
所在节点    Go 编程语言
36 条回复
zuoakang
2019-05-28 10:36:46 +08:00
白菜价
liwl
2019-05-28 10:41:48 +08:00
话说,多加几台机器,轮流跑 可以么 比如 5 台 5s 一次 每台之间间隔 1s 加钱可达?
locoz
2019-05-28 10:51:47 +08:00
这需求没法做的,“最多 1s 内的延迟”这一点,技术层面都不一定所有网站可行,道德层面问题就更大了。。
1s 内的延迟意味着你需要至少 0.5 秒刷新一次,对于一些比较菜的网站来说就是 DDOS 了,虽然可能不会当场爆炸但也会压力山大;如果人家挂了付费 CDN 的话即使全部打在缓存上、对服务器本身没有压力,也还是会有流量费的问题。
onepunch
2019-05-28 11:44:40 +08:00
这个需求很简单,怎么实现我不管 ,dog
zzcworld
2019-05-28 11:50:34 +08:00
你可以跟这些网站合作拿信息,不过费用就不只两万了。
我以前写过一个 proxy,可以把这个软件接受的所有信息转发,延迟在 0.1s 以内。
频繁刷新不可取,websocksets 还可以
chol
2019-05-28 12:34:34 +08:00
可以做啊,预算加个 0
ensonmj
2019-05-28 13:13:38 +08:00
1s 延迟,这个需求估计是拍脑袋拍出来的
rocketman13
2019-05-28 13:15:10 +08:00
费用感人。。
zinfinb
2019-05-28 13:54:56 +08:00
@zzcworld 多谢你的建议, 有一些细节我想请教一下,是否方便发我你的联系方式? 我现在考虑把重要的按你说的 proxy 的方式来做, 有 websocket 替代的尽量用这个。其他不重要的 刷取间隔时间调长一些
lasuar
2019-05-28 14:16:58 +08:00
既然是找别人做,就不要想着投机套方案,之前 V 站也有这种人,最后在这里不敢发言了。
luozic
2019-05-28 14:20:03 +08:00
😄,ip 代理费
demoxu
2019-05-28 17:12:50 +08:00
demoxu
2019-05-28 17:13:51 +08:00
首先不说开发费用,5k/年的维护费用平均 400/月?
lifeintools
2019-05-28 17:18:06 +08:00
这个价格 招实习生 差不多
Navee
2019-05-28 17:43:45 +08:00
1s 延迟,单页面日最少请求=3600*24=86400,平均一个代理请求 1000 次,得至少 86 个代理轮换
mzdblsw8
2019-05-29 02:43:06 +08:00
有没有想过。一年维护费才 5000。

网站改一下策略。又要改代码。一个月才 400。那个大牛这么便宜?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/568246

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX