这种分布式文件下载方案有现成的工具解决吗?

2020-10-09 18:36:09 +08:00
 Inn0Vat10n

在小规格 ecs 上部署了爬虫,想要同步数据到本地但是出带宽只有 1MB (学生优惠机)速度很慢,我在想如果我买多台这样的学生机( 10 元每月比起带宽费用便宜多了),然后并发从多台小规格机器上拉取数据,不就可以达到更高的带宽下载了吗?多台学生机通过内网传输,拆分大文件为多个分片,然后我本地再并发从多台机器同时拉取多个分片再进行组装,这样的功能有现成的工具可以实现吗?

1100 次点击
所在节点    问与答
14 条回复
ackoly
2020-10-09 20:08:37 +08:00
切割成多个文件,分布在多个目录,nfs 挂载多台机子,然后用 rsync 同步就可以
opengps
2020-10-09 20:11:24 +08:00
如果不介意费用问题,可以先把文件内网传到 oss,然后走 oss 的公网流量(付费)下载
opengps
2020-10-09 20:11:58 +08:00
你买多台学生机,需要分布在多个帐号下,内网并没有直接打通,所以这条路并不太好走,绕的太远了
yuzo555
2020-10-09 20:17:57 +08:00
@opengps 都学生机了怎么可能不介意费用问题哈哈
Rheinmetal
2020-10-09 20:20:45 +08:00
搞个海外 vps 试试? 说不定爬国内资源反而快
其实数据不多的话 oss 也不贵
bowser1701
2020-10-09 21:31:56 +08:00
@opengps 学生机内网可以云企业网。
Inn0Vat10n
2020-10-09 21:32:51 +08:00
@opengps
@Rheinmetal
数据量比较大,买 OSS 不如加带宽
swulling
2020-10-09 21:35:11 +08:00
BT 做种下载就行,
Inn0Vat10n
2020-10-09 21:36:47 +08:00
10 台学生机也就 100/月,10M 带宽的单机费用。。。
aheadlead
2020-10-09 21:40:56 +08:00
@Inn0Vat10n #7 你也不说多少数据量…… 如果只有百来 G,妥妥的 OSS 快啊
wjhjd163
2020-10-09 22:10:43 +08:00
学生机不能多开
要多开得多账号
不同账号内网不通 只能走公网
supermoonie
2020-10-09 22:24:58 +08:00
oss 不用想了
Inn0Vat10n
2020-10-09 22:25:31 +08:00
@aheadlead 10GB/天左右
Inn0Vat10n
2020-10-09 22:27:59 +08:00
@opengps
@wjhjd163
内网不通那没办法了。。。OSS 目前看来是最优了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/713417

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX