hadoop 可以两个集群之间做到每个节点之间一一对应实时同步么?

2016-08-31 10:40:25 +08:00
 zpole

有 a,b 两个集群。 a 接收流数据,然后每个节点都同步到 b 。

a 的 1 节点新收的流同步到 b 的 1 , a 的 2 到 b 的 2 。。。依次类推

然后a,b各自的修改也要能互相同步。

就是说保证 a , b 的完全一致。

每秒几亿条。延迟秒级。

7886 次点击
所在节点    Hadoop
29 条回复
czheo
2016-09-01 00:13:44 +08:00
@zpole 你描述的双数据中心,技术难点在于 hadoop 集群的 replicate 和 sync , ls 已经有人有人给出 reair 这个轮子了,技术比较新,你调研下这个轮子的可行性。但是 airbnb 只做了单向的 replicate 和 sync ,和你描述的类似 circular replication 还是要再看看能不能像 mysql 一样手动回避 conflict 。
ten789
2016-09-01 11:51:21 +08:00
到底是异地容灾还是本地互备呢 异地的不会搞 本地的完全不需要 每一个数据块都分布在 n 个 datanode 上 而且 namenode 你可以再搞 m 个从
zpole
2016-09-01 12:18:04 +08:00
@ten789 是我没解释清楚。异地双活互备。
ooonme
2016-09-01 12:41:33 +08:00
hdfs 本身是分布式 高容灾的,也支持机架感知。问题是你这是异地 , io 累死,况且异地灾备 是机房做的吧,业务还需要干预?这块不是很懂;谷歌的论文中提到他们的 GFS 支持多数据中心; but 一切大数据速度的基础是 数据不动代码动;数据跑到代码所在的机器成本得多高,几十 mb 的代码跑到数据所在的机器执行就容易多了。 v2 做大数据的人好少
ooonme
2016-09-01 12:43:12 +08:00
@zpole hdfs 已经支持 ha ,放心吧。这些问题都已经被大公司解决了
ten789
2016-09-01 18:14:23 +08:00
@zpole 如果不存在 a b 之间的同步 数据源 直接发两份呗 如果 ab 之间的同步 这个难了
ClassicOldSong
2016-09-01 20:36:59 +08:00
@zpole 说点题外话,刚刚补完石头门,然后看到了这个帖子标题里“实时”二字突然有一种奇异的感觉,点进来一看你的头像又是红莉栖。。。难道这真的是石头门的选择么 2333333333333333
zpole
2016-09-01 21:20:23 +08:00
@ClassicOldSong 这一切都是 Steins;Gate 的选择
logo1907
2017-09-15 14:02:10 +08:00
可以尝试 Kafka mirror maker,点对点同步的需求需要用 kafka low level 的 consumer 接口自己实现

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/302856

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX