DORIS BE 频繁宕机 如何排查

121 天前
 Marelbruim

1.flink-doris 写入任务 到某个内存阈值 be 就挂了 一天能挂几次 但是看使用情况并没有到达百分之八十 还是有很多内存 2.排除任务的问题,已经运行了一年多了 3.我们大裁员裁到大动脉了 我也不太懂这些 有老哥知道怎么排除问题吗 感谢

1386 次点击
所在节点    程序员
12 条回复
LiaoMatt
121 天前
dmsg 看下 pid 有没有 oom
Devifish
121 天前
BE 是 java 跑的,CPU 占用这么高目测全是 GC 。 看下 jvm 堆配置的大小
R77
120 天前
内存 oom 吧
lyt001
120 天前
fe 和 be 混布吗?
把混布的机器 be.conf 的设置内存调小,但是这样 be 不会崩又会导致查询或者导入任务内存不足崩溃
一劳永逸的办法就是加机器
zwenooo
120 天前
把 be 的 crash 日志都上来撒。
zwenooo
120 天前
be/log/be.out 里头只有你发的这些吗?再看看
Marelbruim
120 天前
@LiaoMatt 显示这个
Marelbruim
120 天前
@wzwmeme #6 是的只有这些 :(
Marelbruim
120 天前
@lyt001 是混布的 de.conf 调小 不会更容易崩吗
lyt001
119 天前
@Marelbruim
所以说一劳永逸的方法是加机器,把 fe 和 be 分开部署
要是实在加不起机器,那就舍弃 fe 的冗余,只布 1 台 fe ,另外 2 台关掉。
把留下的那台的 fe 上面的 be 关掉数据转移到其他 be 上去
lyt001
119 天前
@Marelbruim 拿你的日志问了下 deepseek ,初步判断大概是 compation 分配不到内存空间,be 可用内存不足的问题。
你的监控页面采集的大概率只是 be 进程占用的内存,但是 fe 占用和系统占用的内存没有计算进去,所以你看内存还有剩余,但是其实已经没有了。
调小 be.conf 设置的内存值,be 会更保守预估可用内存,减少崩溃的概率,但是会在内存紧张时拒绝一些查询或导入任务,其实也是治标不治本。
Marelbruim
119 天前
@lyt001 #11 soga 这已经超出我的能力范围了 还是躺平吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1132956

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX