后端 / 运维请进，这个工具非常推荐！

假如有过服务器宕机的恐惧的话，肯定很喜欢这个工具。

每当服务异常的时候，我们第一件事就是查找哪个服务挂了，如果你只有一个服务器，也许也还好，不过只有一个服务器的话估计宕机了也不会有什么恐惧感（这个时候用户量一般还不算大）

可是如果你有很多个服务器，N 多服务，要查清哪个服务出问题了，也不是那么简单。除非你的运维系统已经做的很完备，可是尽管这样，在产品飞速迭代的过程中，每周有新的服务更新上来很正常，这个时候要保证监控到位也是一种挑战。

我刚发现这个国外开发者做的 app：Net Status。

这个 app 可以让你一键 check 所有服务的运行状态，一瞬间你就知道哪个服务出问题了：

你也可以单独查看每个服务各个端口的运行状态：

如果对这些功能不感冒的话，至少，你可以用这个 app 装逼：当跟朋友在餐厅吃饭时，朋友抱怨这个 WIFI 好像有点问题的时候，你拿出手机，ping 一下 baidu，然后很淡定的说，“是的，上不了网”

如果对这个 app 好奇，这里有更详细的介绍（有一个视频）：Net Status - Server Monitor

最后，心动的话赶紧去下，现在限免中，原价 28 ！

Cooky

2018-12-20 18:32:58 +08:00

zabbix，简单有效

CivAx

2018-12-20 18:33:59 +08:00

……事实上是，当服务器出问题时，在运维反应过来之前，产品 /运营 /开发已经开始叫了
（甚至比 App 灵敏）

Kilen

2018-12-20 18:37:01 +08:00

@CivAx 一般都是用户群里首先尖叫

TangCuYu2333

2018-12-20 18:41:36 +08:00

请问 Android 上有没有类似的 app🤔🤔

raynor2011

2018-12-20 18:41:52 +08:00

现在云主机都有监控的吧

tomczhen

2018-12-20 18:45:21 +08:00

@TangCuYu2333
Android 上有 ping tools pro，或者用 automate。

Kilen

2018-12-20 18:45:37 +08:00

@raynor2011 有的，不过在紧急的情况很不方便，比如阿里云的监控，一次只能看一台服务器的运行状态，如果你有很多台服务器，得疯狂地点~ 一般都得自己用第三方工具做一个所有服务的总览，可是如果服务太多，一页有时候也看不完...

594duck

2018-12-20 18:46:41 +08:00

@CivAx 说的太对了，老板还会每次都说，你们因为怎么最后才知道？

Raymon111111

2018-12-20 18:49:01 +08:00

这个一般有监控的, 定时 ping

xpresslink

2018-12-20 18:59:28 +08:00

@Kilen 阿里云的控制系统非常方便。估计你不太会用。可以自己定义监控项和告警策略。ECS 出现问题直接通过钉钉 /短信 /手机语音发送警告了，自己去盯着？不存在的。
而且可以自己定义监控大盘，把所有 ECS 基本状态放一个图表里。

raynor2011

2018-12-20 19:00:05 +08:00

@Kilen 这种现在基本都会弄成报警短信，报警微信之类的，出问题直接通知，比自己人肉监控方便

Kilen

2018-12-20 19:15:56 +08:00

@xpresslink @raynor2011 我也许说的不是很清楚，这个东西不是为了用来监控服务器，而是一个当服务器出现问题的时候的一个调试工具，可以让你最快速的知道哪个服务出问题了，而不用一个个报警去看（或者如果报警没覆盖全，一个个服务器去看）

Admstor

2018-12-20 19:21:18 +08:00

Net Status is a very simple and very fast network and port checking, testing and monitoring app for iPhone, iPad and iOS.

好吧,楼主应该不是运维...
这个工具对运维来说没啥用,就是个批量端口检测,类似的工具太多了
都出故障了我还需要这端口检测干啥...直接就知道哪个服务器挂了...为啥还会说不知道还要查询哪个挂...

zibbx 之类可以自动添加新加服务,基本上都是半自动处理
早在服务器挂之前就应该有 overload 警告才对

xpresslink

2018-12-20 19:27:05 +08:00

@Kilen 我觉得你的语言逻辑出现了问题，你说的场景不存在的。

实在看不懂你这句：
这个东西不是为了用来监控服务器，而是一个当服务器出现问题的时候的一个调试工具，可以让你最快速的知道哪个服务出问题了

也可能我没有把阿里云监控功能说清楚，监控系统会直接发短信告诉你是哪台服务器出了什么问题了，无需自己定位服务器。

xpresslink

2018-12-20 19:30:18 +08:00

@Admstor 我估计也是这样的，这个小东西在我们专业做运维的眼里连个小玩具都算不上。

jingniao

2018-12-20 19:38:42 +08:00

上架服务器，虚拟机之类的，按照功能命名主机名，然后 zabbix 栽过去也差不多了

superlks

2018-12-20 21:25:20 +08:00

5 分钟不上报进程状况，就是一堆电话，邮件，短信，微信告警

Kilen

2018-12-20 22:02:54 +08:00

@xpresslink
抱歉，那句话确实说的有问题，我想说的是，当网站出问题的时候，通过这个小工具，可以快速定位到哪个进程出问题。

对，确实是，通过监控服务器的 cpu，内存等状态可以覆盖很多问题，而阿里云的报警主要是当这些指标超过阈值才会报警。可是也会有一些情况是尽管服务不正常了，可是却没有引起内存或者 cpu 超过报警的阈值。

比方说，我以为把内存设成超过 80% 报警就很稳妥，可是服务实际上是在 75% 的时候就已经停止服务了怎么办？或者我把内存，cpu 的警报都调优的很好，可是后来用户群炸了，服务不正常了，最后发现漏了监控服务器内网进出带宽？

服务端有趣的点是，每一种语言，每一种架构都有着不同的优劣，当接触到新的技术（比如上了一个 go 服务），会需要继续学习。所以监控的指标也应该是不断迭代的，然后会让自己的监控更准确，甚至预支问题的发生，在用户群炸起来前，已经接到警报，把问题解决。

我确实不是运维，所以也许对于资深运维来说我上面提到的问题不是问题？也许有一套标准化的解决方案？如果是的，很希望看到这个帖子的运维朋友可以给我分享一下。

因为我不是运维，一般来说我不太负责监控，而是当出现网站问题的时候能够快速解决。而我的解决方案很简单，就是遍历每一个服务进程，看看是不是返回一个正常值，或者返回一个正常值的延迟是多少。理论上只要能覆盖每一个服务进程，这个方法就可以 100% 检查出网站哪里出问题了。

而今天看到这个 app，我觉得就是一个更轻量的解决方案了，至少不需要 coding，当然也没有 coding 这么灵活，但也许也是一个很好的小工具了。