有没有熟悉 Hadoop 的,遇到个问题无法恢复了。

2019-07-25 20:02:28 +08:00
 rrfeng
描述:
开始集群大约有 80 million 碎文件(一不注意就这样了),导致 NN ( A )内存不足,Crash 掉了。于是临时升级了 A 内存以便抗住。此时 NN 大约需要 60GB 内存。
另外一个 Standby 的 NN ( B )切换成 active,未升级仍然可以工作。期望是不需要升级的,直接删除完文件把 A 配置再降回去。
然后在 B active 的时候开始删除、合并操作,减少了 10 million 文件,然后 B 挂掉了,同样是内存不足的原因。A 变为 active。( B 是在删除前、后挂掉的不确定现在)
于是升级了 B 的内存跟 A 一样,再重启。

问题:
B 仍然无法恢复……
现象:
B 启动后,接收 DN report blocks,处理 editlogs,内存满了,一直长时间 GC,无法进行下去。
猜测:
集群数据量只需要 60G 内存,可能是 editlogs 合并 fsimage 需要大量内存,无法满足需求。

如何让 B 恢复?
615 次点击
所在节点    问与答
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/586233

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX