V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
rrfeng
V2EX  ›  问与答

有没有熟悉 Hadoop 的,遇到个问题无法恢复了。

  •  
  •   rrfeng · 2019-07-25 20:02:28 +08:00 · 586 次点击
    这是一个创建于 1756 天前的主题,其中的信息可能已经有所发展或是发生改变。
    描述:
    开始集群大约有 80 million 碎文件(一不注意就这样了),导致 NN ( A )内存不足,Crash 掉了。于是临时升级了 A 内存以便抗住。此时 NN 大约需要 60GB 内存。
    另外一个 Standby 的 NN ( B )切换成 active,未升级仍然可以工作。期望是不需要升级的,直接删除完文件把 A 配置再降回去。
    然后在 B active 的时候开始删除、合并操作,减少了 10 million 文件,然后 B 挂掉了,同样是内存不足的原因。A 变为 active。( B 是在删除前、后挂掉的不确定现在)
    于是升级了 B 的内存跟 A 一样,再重启。

    问题:
    B 仍然无法恢复……
    现象:
    B 启动后,接收 DN report blocks,处理 editlogs,内存满了,一直长时间 GC,无法进行下去。
    猜测:
    集群数据量只需要 60G 内存,可能是 editlogs 合并 fsimage 需要大量内存,无法满足需求。

    如何让 B 恢复?
    目前尚无回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5628 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 08:34 · PVG 16:34 · LAX 01:34 · JFK 04:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.