伴随着数字化的发展,逐渐成为生产、生活等方方面面的底座支撑。就像国家电网在保障电力供应,运维保障数字稳定。运维的过程包括架构分析、业务部署、监控、备份、安全等方面,而监控既是保障业务运行的探针,也是伴随数字生命周期的哨兵。
数字基础设施包括计算和通信,基于 TCP/IP 等协议协同工作。保障数字基础设施稳定运行的指标也是基于 TCP/IP 协议等,涉及 CPU 、MEM 、DISK 等操作系统监控物理资源;数据库、中间件等应用监控等。
夜莺监控系统拥有扎实的架构设计,包含丰富的监控插件,为运维保障数字基础设施稳定运行提供了重要工作支持。
当前,我在进行的是物联网公司的运维监控工作,涉及测试、生产、学习等环境。因此,分别部署测试夜莺、生产夜莺、学习夜莺共三套夜莺监控系统,相互隔离,降低复杂度。另外,针对不同监控类型,也部署多套 nagios 、uptime-kuma 。最终,统一接入 FlashDuty 实现统一告警平台。
每天起床第一件事,也是查看 FlashDuty 告警。 每天上班第一件事就是打开 FlashDuty 查看是否有告警。
每天下班第一件事也是打开 FlashDuty 查看是否有告警。 下班途中,我会经常关注 FlashDuty 手机客户端以及飞书告警通知信息。夜莺系统已经伴随整个运维保障工作。 工作过程中,我会有一台单独的笔记本电脑放在我在左手边,作为运维监控大屏以及告警信息通知。
在一台主机中,部署 agent 并调整 config.toml 文件。将 categraf 文件夹打包,放到 123pan 。开启 123pan 直链功能。实际部署中就可以直接刷命令了。 部署 agent 之后,可以在夜莺监控平台“基础设施-机器列表”里打标签,也可以通过在 categraf 的 config.toml 中打标签。监控对象少的情况下,使用第一种方式方便一些。机器多得时候,使用后者直接在 categraf 配置文件打标签会方便一些。
日常使用到的中间件包括 Nginx 、Mongodb 、MySQL 等。为了方便监控配置,使用飞书整理了一张表格,竖列是中间件的名称,横列是针对中间件的部署、配置、运行以及夜莺监控配置等内容。 categraf 监控配置也十分清晰,只需要找到对应目录对应文件,参考配置方法并修改相关参数即可。
夜莺监控系统部署过程方便,默认内置大量仪表盘开箱即用。日常工作中,面对多项目,多主机等环境,进行了若干实践调整,主要包括:
将部署各种监控的告警,包括 nagios 、uptime-kuma 、夜莺等纷纷接入 FlashDuty ,实现统一告警平台。
在物联网系统中,数十万设备通过连接服务接入平台。平台中的 JAVA 程序有内存泄露,通过剩余内存判断是否需要紧急重启。不着急的话就尽量在凌晨重启(可以下班了。可以睡觉了。)。
去年出了档子事儿,一大早 7 点起来满手机全是告警。稳了稳神儿,发现原来是云平台没有续费。说来也巧,接手这一摊子时,费用告警不在我这里,包括手机短信和邮箱统统不在。而且,客户经理正在休假。好家伙,通过支付宝快速充值后,恢复了足足 4 个小时,好在集群和服务最终恢复了。 亡羊补牢为时不晚,除了修改云平台费用相关告警通知外,使用夜莺监控通过云平台 SDK 设置费用告警。
另外,举一反三,把第三方短信剩余条数也做了监控。
数字化已经进入到了人工智能时代,数字基础设施与电力基础设施一样越来越重要。保障数字基础设施稳定运行的重要支撑力量落在了夜莺身上。祝愿夜莺监控越来越好。祝愿夜莺的兄弟们工作顺利,身体健康。愿与夜莺的兄弟们一起努力,共筑数字基础设施稳定运行保障防线。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.