一次服务器CPU 100%问题的定位
一次服务器CPU 100%问题的定位
最近线上遇到了一次CPU100%,内存飚得非常高的问题,解决过程异常曲折,非常值得复盘。
- 排查工具
cpu占用100%的问题的通用定位方案:
top找出占用高的线程号 -> top -Hp 进程号 查看具体的占用资源高的线程信息 -> jstack 进程号 可以得到当前的堆栈信息(加上-l参数可以打印关于锁的附加信息) -> jmap -dump:format=b,file= 导出dump日志文件(事实证明最终定位问题还是依靠的这个文件) - 排查过程
开始直接看jstack输出的文件,发现占用cpu特别高的是两个GC线程,然后查看程序堆栈信息发现大量的waiting on condition,timed_waiting,locked,但是相关信息,仍然无法准确定位出问题的代码位置。
无奈把dump文件导到内网服务器上用jstat命令,折腾半天好不容易能看了,可是只看到有大量的CLASS [B数据,虽然查到是byte数组,但是还是很懵,无法定位问题。最后用了eclipse的MAT,一下就定位到了问题-Leak Suspects:
然后结合MAT的dominator tree还可以查找到造成内存泄漏的sql查询具体的参数从而定位具体的问题。
总结:
1.工具非常重要,工欲善其事,必先利其器。
2.问题排查时结合代码和业务情况缩小排查范围可提高解决效率。