运维的 V2ER,你们一天大概收多少告警短信/邮件?

2018-12-30 09:43:35 +08:00
 zhoudaiyu
现在我大概一天收 600-800 个,故障时候 1000 多个告警短信,邮件是 cachecloud 和 jenkins 发的,一条 1000 多封。感觉快烦死了。
4809 次点击
所在节点    问与答
32 条回复
ckzx
2018-12-30 09:45:24 +08:00
这个好像你不处理的锅啊,或者把限制调高点
wtks1
2018-12-30 09:45:48 +08:00
我这边只收数据库警报,一天怎么也得几十封吧
swulling
2018-12-30 09:48:18 +08:00
不处理不接收
corvofeng
2018-12-30 09:57:34 +08:00
几百的警报代码写的也太有问题了吧。 我这边 1 天也就几条; 出了问题,报警多的时候每分钟 1 条, 这样处理才有效啊
zhoudaiyu
2018-12-30 10:11:57 +08:00
@ckzx 好多告警是前一分钟发了,后一分钟就恢复了,贼烦

@wtks1 DB 的没那么多吧?要是 DB 告警多了就坏了

@swulling 老哥是运维吗

@corvofeng 总是不停的发根本看不过来,不知道领导在想什么
hugee
2018-12-30 10:30:52 +08:00
说明你的监控写得有问题,报警这么多等于没有报警。
annoy1309
2018-12-30 10:31:57 +08:00
那就是你们告警策略没做好
按你的描述
好多告警是前一分钟发了,后一分钟就恢复了,贼烦
那你们就应该设置阈值
比如服务连续不可用超过 3 分钟,告警
yidinghe
2018-12-30 10:34:08 +08:00
告警有两种,一种是阈值告警,比如内存使用超过 90%;一种是失败告警,比如某个事务回滚。对于很快可以恢复的情况,采用重试的方式处理,重试若干次失败再来告警。否则会产生大量的无效告警。楼主遇到的就是大量无效告警,使得告警机制没有正常发挥作用。
zhoudaiyu
2018-12-30 10:35:13 +08:00
@annoy1309
@yidinghe
现在都是至少连续 3 次 有的连续 10 次
yidinghe
2018-12-30 10:37:17 +08:00
那要把底层的问题解决了。
CallMeReznov
2018-12-30 10:42:02 +08:00
我的 zabbix 都不设置报警.因为我所有爆炸的点都设置了自动脚本
zabbix 触发器一旦触发就自动运行.然后就等待 zabbix 的黄条变绿就好了

总部在我这里有部分对象存储服务器,因为开发的问题导致对象存储网关如果被写挂
让总部的人直接在服务器里写了个 RE 脚本完成后发邮件.

所以一天也就收几封~
swulling
2018-12-30 10:49:02 +08:00
@zhoudaiyu 嗯,所以是报警策略问题。像你这种,应该加一个持续时间的判定,持续超过 xx min 再报
CallMeReznov
2018-12-30 10:53:23 +08:00
想到 2 点
1.楼主得想办法优化报警信息,如楼上各位说的故障时间,阀值等
2.既然有 jenkins 肯定是有很多自动化任务了,那既然都是自动化任务了为什么还有那么多爆炸信息?那肯定得从优化自动化任务上面的事啊,执行就出错,我还要你自动化干嘛?我手动反而不更稳定?
wtks1
2018-12-30 11:19:20 +08:00
@zhoudaiyu 其实大多数只是等待数量高,没办法做警告的不是我们的人,订的阈值不能改动,每次也就超出几个而且也就七点多那一会,就只能每天硬接这批短信了
binux
2018-12-30 11:28:46 +08:00
不需要人工处理的报警不要抱,人不看的日志不要打。
zhoudaiyu
2018-12-30 11:54:20 +08:00
@CallMeReznov Jenkins 在我们这只是上线用,BUILD 的时候 Build 完了,Build 失败发邮件,几乎没有什么自动化的
zhoudaiyu
2018-12-30 11:56:20 +08:00
@CallMeReznov 您敢相信我们这磁盘空间的问题都要人来干预吗?人去清日志什么的。只是 0 点的时候有个 gzip 的日志压缩脚本,但是还是有 N 多告警要自己处理。
zhoudaiyu
2018-12-30 11:57:06 +08:00
@wtks1 天天几百条,快崩溃了。
zhoudaiyu
2018-12-30 12:00:23 +08:00
@swulling FALCON 有连续超过阈值 n 次才会报警,CAT 的我不太清楚,因为不是我配的,但是应该也有类似得设置。然而即便是这样,也是疯狂报警。而且有些 Q 的和关键业务的业务告警必须马上发出来。感觉问题就是这个阈值是死的,要是有人工智能的技术能自动设置阈值就好了。
sunnyadamm
2018-12-30 14:02:27 +08:00
我。。。这里每天大概 160 万告警😂😂😂

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/522471

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX