一次Spring Boot假死诊断。。。

这两天遇到一个服务假死的问题，具体现象就是服务不再接收任何请求，客户端会抛出Broken Pipe。

01 检查系统状态

执行top，发现CPU和内存占用都不高，但是通过命令

netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

发现有大量的CLOSEWAIT端口占用，继续调用该服务的api，等待超时之后发现CLOSEWAIT的数量也没有上升，也就是说服务几乎完全僵死。

02 检查JVM情况

怀疑可能是线程有死锁，决定先dump一下线程情况，执行

jstack > /tmp/thread.hump

发现tomcat线程基本也正常，都是parking状态。

这就比较奇怪了，继续想是不是GC导致了STW，使用jstat查看垃圾回收情况

app@server:/tmp$ jstat -gcutil 1 2000 10

S0 S1 E O M CCS YGC YGCT FGC FGCT GCT

0.00 27.79 65.01 15.30 94.75 92.23 1338 44.375 1881 475.064 519.439

一看吓一跳，FGC的次数居然超过了YGC，时长有475s。一定是有什么原因触发了FGC，好在我们打开了GC log。

发现一段时间内频繁发生Allocation Failure引起的Full GC。而且eden区的使用占比也很大，考虑有频繁新建对象逃逸到老年代造成问题。询问了一下业务的开发，确认有一个外部对接API没有分页，查询后可能会产生大量对象。

由于外部API暂时无法联系对方修改，所以为了先解决问题，对原有的MaxNewSize进扩容，从192MB扩容到一倍。经过几天的观察，发现gc基本趋于正常

S0 S1 E O M CCS YGC YGCT FGC FGCT GCT

0.00 3.37 60.55 8.60 95.08 92.98 87 2.421 0 0.000 2.421

扩容之前对heap进行了dump

jmap -dump:format=b,file=heapDump

通过MAT分析内存泄露，居然疑似是jdbc中的一个类，但其实整体占用堆容量并不多。

分析了线程数量，大约是240多条，与正常时也并没有很大的出入。而且大量的是在sleep的定时线程。

03 总结

本次排查其实并未找到真正的原因，间接表象是FGC频繁导致服务假死。而且acturator端口是正常工作的，导致health check进程误认为服务正常，没有触发告警。如果你也遇到类似的情况欢迎一起讨论。

全部评论

推荐最新楼层

07-07 16:56

已编辑

辽东学院嵌入式硬件工程师

救命救命

来个大佬救一下，为上投了都是石沉大海了，没实习经历的话怕秋招直接进不了面。什么实习这么难找，基本

心态爆炸了：现在正式的岗位都少，实习基本不咋招的，除了大厂，中小企业其实没那么多岗位需求，就算是有，大多都是招一两个廉价劳动力，同时，他们也会希望你一来就能干活的，没时间培训你，就让你了解公司的项目，你了解完就可以开始干活。再者是，很多低质量的实习其实用处没有那么大的。我去年也是找实习找到破防，最后去了一家深圳的小公司实习，工作对我来说很简单，甚至不如我在学校做的项目，秋招的时候，这段实习经历也并没有帮上什么忙，投递简历，依旧非常低的回复率。低回复率是常态，尤其是找实习，找不到，那就把重心放在优化自己的简历和项目，多看八股文，锻炼自己的面试能力，多看别人的面经，自己模拟面试，等秋招的时候，只要有那么寥寥几次，好好抓住那几次机会。

点赞评论收藏