xpack 监控日志 index 写入出错,导致正常写操作耗时高

2021-11-22 10:00:06 +08:00
 fatpower
集群 3 个节点,都是 2c4g ,机器是 aws 的。es node 节点没有掉线,index 状态都是 green 。
线上监控到写 es 操作耗时高,查看日志报错‘ShardNotFoundException’,显示往 monitoring-es-7-xxxx 的 index 写数据报错。
利用 /_cat/shards 命令查看发现报错 index replica ,docs 、store 都不显示,手动 reroute 把这个 replica 分配到其他 node 报错消失。但是过几天这个监控日志 index 只要分配到之前报错的 node ,就有可能出现日志写不进的情况,但也不是 100%。目前还没有遇到过业务 index 写入失败的情况,可能是数据量比较小。
有大佬遇到过这种类似问题吗?可能会是哪些原因?
1574 次点击
所在节点    Elasticsearch
4 条回复
redial39
2021-11-22 13:38:04 +08:00
2c4g 的话,堆配置就是 2g,默认的 40%就是将近 800m,800m 在分片分配种很容易出现错误,特别是 monitoring 这种 index 里.按你说的 3 个节点都使用 metricbeat,如果不关闭 system 模块,每天可以产生将近 1.5g 或者更大的分片,不管你怎么调整,都是会出错的
所以,总结一下就是....机器太烂了
fatpower
2021-11-22 15:00:42 +08:00
@redial39 确实机器比较烂哈哈,准备升级。另外 40%这个是什么设置,麻烦告知我去了解下,感谢~
redial39
2021-11-22 16:05:33 +08:00
@fatpower emmm..是我理解错了,你不是查询的时候出问题..我以为是查询报错,40%是 indices.breaker.fielddata.limit...你的情况,建议查一下集群的线程情况 /_cat/thread_pool , 由于堆很小.也可能引发高频 fullgc 导致大量 io,分片分配达到了最大尝试次数,所以...结论还是不变 233
julyclyde
2021-11-23 12:53:12 +08:00
听 lz 的描述,似乎对那个 node 有些意见啊
如果真的确认故障和具体 node 有关联关系,那可能还需要进一步调查

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/817039

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX