类互联网中小厂在监控系统方面有什么痛点吗?

2025 年 8 月 7 日
 qm

对于类互联网后端服务而言,监控系统的重要性不言而喻。一般大厂都会有专门的团队结合自身业务打造一套专属的监控系统(或者说可观测系统)——集成数据埋点、上报、指标计算、可视化展示、告警、归因等一系列功能。

但是对于中小厂而言,专门养一个这样的团队,ROI 可能不高,因此可能会使用一些开源方案、或者云厂商提供的服务,想了解一下,有此类经验的同学,是否在使用这些系统、服务时有什么痛点问题。

3364 次点击
所在节点    程序员
18 条回复
Hieast
2025 年 8 月 7 日
专门招人来做 SRE 最好,不然永远有做不完的需求和技术债
SethShi
2025 年 8 月 7 日
可以看看阿里云的 ARMS, 支持上百种标准协议接入, 囊括硬件层, 网关层, 应用层,
数据收集用的 opentelemetry 协议收集 =>
存储到 SLS =>
指标计算使用 ARMS, 可以看到 p99, 超时错误等等 ==>
价格太高的话把保存天数设置为 7 天就行
SethShi
2025 年 8 月 7 日
报警的话有自带的 AlertManager,
比如监控某个时间段内 P99 超过 250ms,
或者 500 错误大于 20 开始报警


补一张图, 竞品的话有一个叫做听云的, 它们家主做"探针"无代码侵入, 不过价格有点小贵
guanyujia5444
2025 年 8 月 7 日
ARMS 很好用,该花钱花钱
zfyp
2025 年 8 月 7 日
小公司最主要是不重视,没钱做或者不想花钱
salmon5
2025 年 8 月 7 日
ARMS ,养一个这样的团队?弄一地鸡毛?
h79c12156nSOY8i8
2025 年 8 月 7 日
做深入的性能观测的门槛很高,只是基础的话开源工具就可用,比如普罗米修斯这种。
nickyadance23
2025 年 8 月 7 日
@salmon5 #6 我经历过的 500 人小厂,增长期招大厂 infra 进来一顿折腾包括监控、框架和中间件等,上市无望后全部裁掉真正的一地鸡毛。最经典的是接口返回码得从 0 改成 200 ,说是对齐 http~~
pc10201
2025 年 8 月 7 日
有很多公司在用夜莺监控系统了,不过夜莺公司也没有赚到很多钱
mengdodo
2025 年 8 月 7 日
小公司建议还是多把心思花在业务上,整天研究自己的员工算哪门子事
gravelbit
2025 年 8 月 7 日
@mengdodo #10 别人说是业务监控..
dawee2y
2025 年 8 月 7 日
直接用开源的,比如 skywalking 这种
DUNAI
2025 年 8 月 8 日
@salmon5 笑死我了
DUNAI
2025 年 8 月 8 日
@mengdodo 为什么美国时间比中国慢,是因为美国人懒吗
salmon5
2025 年 8 月 8 日
@DUNAI #13
@nickyadance23 #8
亲身经历,因为 APM 不是最终用户的需求,是内部需求,是内部技术上藏污纳垢的地方,很容易乱搞。最终绝对一地鸡毛。
Desdemor
2025 年 8 月 8 日
需求没那么大, 普罗米修斯+阿里云的 log 已经满足大部分场景了
julyclyde
2025 年 8 月 8 日
小厂的好处就是没那么多多余的人去创造新项目
尽量跟随主流/标准就行了
abcbuzhiming
2025 年 8 月 9 日
小厂最大的问题就是没钱没人,监控这东西做的够好是要投入钱和人的,小厂要做这个,就只能做个样子货

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1150700

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX