hadoop 可以两个集群之间做到每个节点之间一一对应实时同步么？

有 a,b 两个集群。 a 接收流数据，然后每个节点都同步到 b 。

a 的 1 节点新收的流同步到 b 的 1 ， a 的 2 到 b 的 2 。。。依次类推

然后a,b各自的修改也要能互相同步。

就是说保证 a ， b 的完全一致。

每秒几亿条。延迟秒级。

czheo

2016-09-01 00:13:44 +08:00

@zpole 你描述的双数据中心，技术难点在于 hadoop 集群的 replicate 和 sync ， ls 已经有人有人给出 reair 这个轮子了，技术比较新，你调研下这个轮子的可行性。但是 airbnb 只做了单向的 replicate 和 sync ，和你描述的类似 circular replication 还是要再看看能不能像 mysql 一样手动回避 conflict 。

ten789

2016-09-01 11:51:21 +08:00

到底是异地容灾还是本地互备呢异地的不会搞本地的完全不需要每一个数据块都分布在 n 个 datanode 上而且 namenode 你可以再搞 m 个从

ooonme

2016-09-01 12:41:33 +08:00

hdfs 本身是分布式高容灾的，也支持机架感知。问题是你这是异地， io 累死，况且异地灾备是机房做的吧，业务还需要干预？这块不是很懂；谷歌的论文中提到他们的 GFS 支持多数据中心； but 一切大数据速度的基础是数据不动代码动；数据跑到代码所在的机器成本得多高，几十 mb 的代码跑到数据所在的机器执行就容易多了。 v2 做大数据的人好少

ooonme

2016-09-01 12:43:12 +08:00

@zpole hdfs 已经支持 ha ，放心吧。这些问题都已经被大公司解决了

ten789

2016-09-01 18:14:23 +08:00

@zpole 如果不存在 a b 之间的同步数据源直接发两份呗如果 ab 之间的同步这个难了

ClassicOldSong

2016-09-01 20:36:59 +08:00

@zpole 说点题外话，刚刚补完石头门，然后看到了这个帖子标题里“实时”二字突然有一种奇异的感觉，点进来一看你的头像又是红莉栖。。。难道这真的是石头门的选择么 2333333333333333

logo1907

2017-09-15 14:02:10 +08:00

可以尝试 Kafka mirror maker，点对点同步的需求需要用 kafka low level 的 consumer 接口自己实现

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/302856

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.