运维如何做故障排查?

2016-06-24 12:00:30 +08:00
 lavdemo

大家做故障排查的时候有什么通用的思路和方法吗?能帮助我缩短故障排查时间,尽快解决问题。最好能举例说明下。

2076 次点击
所在节点    问与答
4 条回复
scys
2016-06-24 12:08:14 +08:00
看日志
luojiyin87
2016-06-24 15:09:48 +08:00
先 dmesg 看系统的日志.有无系统级别的报错, 在看问题软件的日志. top/htop 查看 进程状态是否有异常.
cloudwise
2016-06-24 16:26:49 +08:00
前端时间,我们有个客户分享了他的真实经历,我觉得其中有个例子跟主题蛮接近,贴出来看下。

关于移动用户无法访问网站

![](//i.v2ex.co/E2mCBCxe.png)

上面是 4 月 21 日交换机的入口出口图,在 20 点整的时候出现一个流量的掉坑,根据这张图可以很明显的看到流量在进来的时候就已经减少了,这个时候系统内部却没发现有其他异常,下面在看下 nginx 的入口出口图

![](//i.v2ex.co/K4142Cgr.png)

可以很明显的看到也是流量进来就减少了,造成出去的流量减少,那么问题肯定出在外部。

![](//i.v2ex.co/0nsZQwSI.png)

可以很明显的看到 4 月 21 日 20 点持续 25 分钟的移动用户节点无法访问,

![](//i.v2ex.co/H3JXe78R.png)

这时候就不是我们的事了,而是机房的事,于是马上打电话给机房反馈情况,机房帮我们做了路由优化才解决这过程持续了将近 20 分钟。
cloudwise
2016-06-24 16:29:17 +08:00
图片重新发下:


这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/288007

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX