告警的哲学

2015-02-18 17:50:07 +08:00
 9hills

My Philosophy on Alerting, based my observations while I was a Site Reliability Engineer at Google

Author: Rob Ewaschuk rob@infinitepigeons.org

Link : Google Docs

这是最近比较火的开源监控架构Prometheus在Alerting Practices上的推荐阅读,见http://prometheus.io/docs/practices/alerting/

中心思想:

Keep alerting simple, alert on symptoms, have good consoles to allow pinpointing causes, and avoid having pages where there is nothing to do.

读后感:

任何知识都是从知识到技能,最后达到方法论,OP的技能也不外如此。OP们,搞好报警,过个好年吧

6536 次点击
所在节点    DevOps
2 条回复
dcoder
2015-02-20 02:14:10 +08:00
看了下 prometheus

visual 是 rails + SQL, 感觉不如流行的 ElasticSearch+Kibana 给力呢
http://prometheus.io/docs/visualization/promdash/

顺便问一下, 他这个 storage 是 levelDB 的, 容易 horizontal scale out 吗
http://prometheus.io/docs/operating/storage/
9hills
2015-02-20 02:37:09 +08:00
@dcoder SQL语义表达肯定比es要好,但是数据量上来后的性能可能是个瓶颈。

存储只有index存leveldb 监控数据按块存文件。它说当时开发的时候还没有influxdb,所以没用。另外存储只存抽样的数字时间序列,不像influxdb一样存所有信息。

另外这个系统不是分布式系统是个单机系统,所以没有水平扩展的能力。官方推荐的扩展方法就是不同的机器监控进不同master.……

用的感觉,这个系统是给500台以下的监控系统准备的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/171676

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX