有些 bug 找不到原因怎么办

做业务系统的，经常有 bug，要是能复现的话，99.9%都能定位到原因；经常有些偶发的问题，涉及到的链路特别长（ a 服务 -> b 服务 -> ...K 服务），很难确定具体是哪个部分有问题，关键也不熟悉各个服务的代码，查问题只能通过 kibana 上面的日志寻找线索，你们是怎么处理这类问题呢？

9yu

2020-07-27 12:39:38 +08:00

问熟悉服务的人啊，自己解决不了的问题就不要自己解决。

kop1989

2020-07-27 12:42:19 +08:00

只能各个业务单独输出日志，记录输入和输出。这样下次再出现就能判断出问题在哪。
偶发说明不是计算问题，所以优先排查涉及逻辑的模块，比如异步、队列、事务等。

Leigg

2020-07-27 12:51:32 +08:00

当前服务在返回错误时一定要打日志

751327

2020-07-27 12:58:08 +08:00

@Leigg 关键是没有报错的那种，有报错就好解决了

zarte

2020-07-27 13:59:16 +08:00

有预生产环境么？

gggyyybbb

2020-07-27 14:06:11 +08:00

pinpoint 了解一下

metamask

2020-07-27 14:17:36 +08:00

你先把握住大概流程，比如你说的 a --> b --> c --> d

你先缩小出现问题的地方。
比如直接去掉你熟悉的 a 和 d （按你描述，你一般在上游或者下游），你那么就只需要排查 b 和 c 。

然后你就看 c 入口的日志，没反应的话，再看 b 入口和模块日志。

=================
至于偶发的问题，这个我觉得是挺悖论的。。。
你在这个发生的地方，拿着它去上游回溯或者看下参数到这里是怎么转变，还是可以排查

751327

2020-07-27 14:32:26 +08:00

@gggyyybbb 我研究研究

751327

2020-07-27 14:32:52 +08:00

@zarte 很多环境，灰度 -> 预发 -> 线上

751327

2020-07-27 14:34:10 +08:00

@freakxx 业务系统一大问题就是调用链特别长，太多地方需要打日志了

751327

2020-07-27 14:34:55 +08:00

@freakxx 不是每个模块都有这么多的日志

751327

2020-07-27 14:38:43 +08:00

@gggyyybbb 请教下，这个东西生产环境用的多吗，性能怎么样

metamask

2020-07-27 14:42:47 +08:00

@751327 #11

我思路在于，
我没想过能直接定位到问题在哪，
思维也类似二分法来处理

日志也不需要详尽，你只需要有入口和出口就可以，
你配个 nginx 也有个基本日志，你就看有没进去和出来，

排到具体模块打 log，直接 print 都可以，再来排查看具体在哪里有问题。

751327

2020-07-27 15:10:00 +08:00

@freakxx 目前就是这样查问题的，有些请求会找运维拿 nginx 日志，不过也谢谢你

gggyyybbb

2020-07-27 17:34:25 +08:00

@751327 一般服务调用链长的就可以用类似的接口监控工具了，pinpoint 只是其中一种，底层是探针的形式，对整体系统消耗性能很低。类似的还有 skywalking，zipkin 等，你可以比较权衡下

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/693420

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.