线上的服务 怎样才能保证做到不挂呢? 监控, 通知机制之类的

2014-12-11 10:25:53 +08:00
 geew
今天刚到公司, 就有人通知说主页挂了, 进服务器启动了, 查了下日志, 发现
OSError: [Errno 28] No space left on device: '/tmp/tmp3_Jyjd'

服务都是用supervisor在跑的, 遇到这种问题该如何才能做好监控工作呢, 尽量保证服务不挂, 谢谢大家了
4121 次点击
所在节点    DevOps
7 条回复
saber000
2014-12-11 11:38:10 +08:00
简单的话我在我树莓派跑的服务用upstart自动重启+crontab定时监控并告警
Livid
2014-12-11 11:41:45 +08:00
外部监控可以用 Pingdom,监控宝,AWS 这些来看服务是否可用。

内部状态的话,可以用 New Relic 监控 CPU,磁盘,内存和网络等。
hging
2014-12-11 11:45:08 +08:00
@Livid newrelic监控程序也相当不错.
yangxin0
2014-12-11 11:45:53 +08:00
用erlang/otp吧完善的监督重启机制
lincanbin
2014-12-11 12:19:59 +08:00
内部的话可以添加定时任务,定时wget主页,然后如果出错就restart service。
BackBox
2014-12-11 12:39:12 +08:00
监控包 New Relic monit 就够了。
weegc
2014-12-11 12:50:29 +08:00
运行服务监控的话,比如nginx、php之类的,自己写的watchdog.sh 监控,报错退出了,自动重启服务
监控服务器cpu,disk,memory状态的话,很多开源的东东可以使用,不过我还没有用上这方面的东东

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/153053

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX