分布式系统的正确 debug 姿势求解

现在接手的一个算比较大型的分布式系统，一起有 4，5 个大模块，每个模块都是一个独立的 jvm，互相依赖。在 idea 中 debug 发现一旦时间过长就会各种 connection timeout，heart beat 超时，导致不得不重启系统，或者傻乎乎得打印日志。

尝试过修改一些心跳包的超时参数，但是因为刚接手不是很熟悉，外加很多地方参数甚至需要代码层面修改，感觉不仅麻烦而且容易出问题，所以想请教下有什么比较好的 debug 姿势，目前尝试了 btrace，可以注入一些方法进行参数的打印，但是还是不够方便，大神们有没有什么好的方法求指教

reus

2019 年 4 月 19 日

打印日志不仅不傻乎乎，还是正确的 debug 方法。很多分布式算法都很讲究时间，哪里能让你停下来的？

xuanbg

2019 年 4 月 20 日

先靠日志确定问题点，一般如果抛异常，直接就能定位问题代码了。如果没有抛异常，不能确定具体是哪段代码出问题再上调试。

snappyone

2019 年 4 月 20 日

@reus 我们都是一些数据处理引擎跟分布式数据库所以确实不快，但是我感觉每次打 log 要重启多个系统，就算启动快也是大问题

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.