各位好,目前大多的互联网企业使用的服务器都是市面上的公有云服务,阿里云,腾讯云, ucloud 之类的,请问大家是如何解决云主机宕机及时收到通知的呢?

2019-02-16 17:43:00 +08:00
 duanlian
尤其是半夜和节假日,没有值班人员的时候,非常头痛,单纯的依靠云厂商的通知,一般不会第一时间通知到,会有一定的延迟;自己处理的方式是用的 zabbix 的 fping 服务,可靠性也不是好,尤其是海外的云主机,网络抖动,GFW 之类的回有影响,产生误报。求解决方案。
1135 次点击
所在节点    DevOps
14 条回复
yuhr123
2019-02-16 17:58:11 +08:00
想到了几个关键词供参考:热备,负载均衡,CDN 这些公有云都有方案
wongskay
2019-02-16 17:58:36 +08:00
我也有该需求,例如网站挂了怎么第一时间知道。
Athrob
2019-02-16 17:58:50 +08:00
做个程序放服务器,定时上报我还活着。超几次没报就认为死了。
dazhangpan
2019-02-16 19:07:24 +08:00
感觉 V2EX 的工单比他们的通知邮件要快,不如做个监控 V 站的脚本?
duanlian
2019-02-16 19:26:47 +08:00
@wongskay 网站这个还是比较好办的,监控首页状态,监控关键的业务接口都行;
duanlian
2019-02-16 19:28:01 +08:00
@dazhangpan 每次延迟收到都要命,晚上睡一觉几个小时了。。。
opengps
2019-02-16 19:52:27 +08:00
说下具体服务看看,我感觉各种云监控已经够用了,我现在用的是阿里云的云监控。也有自己写的 tcp 服务器程序成品支持不够理想,就自己有特定的请求返回,自己做的外网监控端
luozic
2019-02-16 19:55:12 +08:00
冗余,无论是云还是托管还是啥,恰当的冗余是可靠性第一定律。 实际生活里面的工程也是一样。
AlexaZhou
2019-02-16 20:09:55 +08:00
之前用过云智慧的监控宝服务,很好用,专门针对这种需求,网站挂了让你比老板先知道,推荐一把
wongskay
2019-02-16 22:07:15 +08:00
@AlexaZhou 网站挂了第一时间比老板知道真的很重要。。。。
raynor2011
2019-02-17 04:49:35 +08:00
高可用,挂一台机器不影响正常运行
theks
2019-02-17 11:59:54 +08:00
机器挂掉前是有预兆的,比如 cpu、内存使用率,网络流量等。
在用阿里云,自带云监控功能,可以监控 ecs、rds 系统资源到达某个阈值就报警。另外有网站监控,定时访问某个网站,如果多个监测点同时都访问不了就报警。
阿里云的云监控每月有 1000 条免费报警短信的额度,够用了。
wkl17
2019-02-18 01:59:20 +08:00
@theks 只在阿里注册过域名,是否也有免费 1000 条报警短信?还是必须有开通 ECS 等才有?
zong400
2019-05-10 16:52:08 +08:00
就算你各种监控都做好,怎么保证你晚上睡觉时候收到一条短信就会醒,很早以前某领导下令写过一个 app,如果服务器不上报消息就判断宕机,然后 app 会响,尼玛各种折腾误报,不堪回首。。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/535664

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX