首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
V2EX  ›  问与答

服务器挂了如何自动提醒运维或则对应的后端人员?

  •  
  •   Eugene1024 · 62 天前 · 1845 次点击
    这是一个创建于 62 天前的主题,其中的信息可能已经有所发展或是发生改变。
    背景: 因为某种原因服务器挂掉了或则程序挂掉了,经常在休息的时候公司的人或则用户就打电话来,“小明,服务器又挂了,快起来看看是咋回事? ”
    我:怎么又挂了,等下我起来看看

    每次接到这种电话的时候都怀疑人生,而且在消息传递的期间有时间延迟,所以想到服务器挂了的时候能不能第一时间就提醒下运维或则后端人员,具体的提醒可能就有多种方式了,如短信,微信,邮件,电话等等,这里主要想了解下这种自动提醒的实现方式

    自己想到了一种方法: 找一个服务器 B 部署一个测试程序,测试程序打开,定时(比如一分钟)访问 A 服务器,如果访问 A 访问不到了触发提醒

    想知道还有其它哪些实用的实现方式
    第 1 条附言  ·  59 天前
    谢谢各位大佬的回复,大佬们真的提供了很多思路
        1
    yinanc   62 天前
        2
    Cooky   62 天前 via Android
    你们运维没有监控系统???
        3
    SakuraSa   62 天前
    感觉由服务器主动上传监控信息(调用量 /可用率 /延时)到监控服务器的方式比较普遍。
    监控服务器发现监控值超出设定的阈值,或者一段时间没有上报后报警。
        4
    uqf0663   62 天前 via Android
    阿里云有个 “云监控”可以用,不是阿里云的机器也可以用
        5
    Eugene1024   62 天前
    @yinanc easy 老师写的工具,这个我知道,但这个只是消息提醒的方式,我实际上想知道如何检测到服务器或则程序蹦了
    @Cooky 小公司专职运维都没有,当然也没有监控系统
        6
    rainfox   62 天前
    各种云监测服务……
        7
    liwl   62 天前
    @Eugene1024 找不找代维呀~
        8
    johnniang   62 天前 via Android
        9
    aricxu   62 天前   ♥ 1
    我就简单粗暴了点,直接服务器上跑 shell 定时监控进程,如果挂了就 钉钉机器人 /其他机器人 /短信 /电话 通知一下;其实还可以直接重启进程的。检测的话,ps 一下咯。
        10
    nanlou   62 天前   ♥ 1
    如果生产环境在云上可以看看各家的云监控,如果是自有机房的话可以使用开源的 Zabbix、Nagios、Open-Falcon 之类的自建监控系统,话说这不是最基本的操作吗。。。。
        11
    botian   62 天前 via Android
    @yinanc 服务器都挂了,怎么发通知?
    应该用外部的监测
        12
    shm7   62 天前 via iPhone
    直接定时访问,不就是最靠谱的手段么?你不管怎么检测,只要不访问,都无法确定服务是可访问的啊!
        13
    awhane   62 天前
    服务器 A 和服务器 B 都部署监控系统,最低保障监控系统的高可用。
    然后看下 https://prometheus.io/就行了
        14
    internelp   62 天前
    运维不知道有监控系统吗,挂了自动发消息。
        15
    hand515   62 天前   ♥ 1
    心跳包、定时 ping
        16
    37Y37   62 天前   ♥ 1
    另外找个机器部署个监控系统,zabbix,nagios 啥的都行啊,有云服务最好了
        17
    hopingtop   62 天前
    prometheus 解君愁
        18
    vZexc0m   62 天前 via Android   ♥ 1
    阿里云云监控。免费版也能满足要求。
        19
    hiplon   62 天前   ♥ 1
    zabbix 就好了
        20
    huson   62 天前
    你们运维工程师是纸糊的吧 监控报警都不做的吗
        21
    turi   62 天前   ♥ 1
    没脚本监控?
    我们的运维直接撸脚本,挂了发一封邮件,然后重启服务器。
    第二天我们来 gdb XXXXX 看原因。
        22
    okwork   62 天前
    首先要有异常提醒,其次要有宕机自动重启的机制,第三要用负载均衡的策略。这样基本就可以不用人肉等候了
        23
    PHPJit   62 天前
    zabbix +1
        24
    akira   62 天前   ♥ 1
    @Eugene1024 云服务一般都会有提供监控 /告警服务的。
    如果是托管主机,国内也有不少三方的云监控 /告警服务,直接用就是了.
        25
    Shirakawa   62 天前   ♥ 1
    python 写个脚本请求 http 状态码 然后联动钉钉机器人就好了
        26
    cominghome   62 天前   ♥ 1
    最优解: 用云的话,大部分有自带的,理论上你只需要配置一个告警规则就行。
    次解: 搭建一个 zabbix 把服务器监控上,应该花不了 1 天。
        27
    Mazexal   62 天前   ♥ 1
    心跳包......不过必须要两台服务器以上才可以这么搞
        28
    zqx   62 天前 via Android   ♥ 1
    一个服务,每隔半分钟就调目标机器的服务,超时就把机器信息回传给企业微信,企业微信推送到具体机器的应用的负责人
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   783 人在线   最高记录 5043   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 35ms · UTC 19:44 · PVG 03:44 · LAX 12:44 · JFK 15:44
    ♥ Do have faith in what you're doing.