具体的表现:客户端请求没有响应,查看服务器端 tomcat 的 java 进程存在,查看 tomcat 的 catalina.log,没有发现异常,也没有 error 日志,查看 localhost_access.log 也没有最新的访问日志,该台 tomcat 已不能提供服务。
根据前面的假死表象,最先想到的是网络是否出现了问题,于是开始从请求的数据流程开始分析。业务的架构采用的是 nginx + tomcat 的集群配置。
如果是网络的原因,可以从两个点进行分析。
1. 从前端到 nginx 的网络情况
分析 nginx 上的 access.log,可以查出当时该条请求的访问日志,也就是说可以排除这段网络的问题。
2. 从 nginx 到 tomcat 的网络情况
分析 tomcat 的访问日志 localhost_access.log,没有查到该条请求的访问日志。可以怀疑是否网络有问题,从 nginx 上 ping 一下 tomcat server,网络正常。开始怀疑是 tomcat 本身的问题,在 tomcat 本机直接 curl 调用该条请求,发现仍然没有响应。到此基本可以断定网络没有问题,tomcat 本身出现了假死的情况。
造成 tomcat 假死的情况大概有以下几种:
1. JVM 内存溢出
grep OutOfMemoryException catalina.sh,查看是否有内存溢出的情况。
2. JVM GC 时间过长,导致应用暂停
3. 服务负载过高
top 命令查看系统负载情况。
4. 应用程序本身的问题,造成死锁
jstack,有少量线程处于TIMED_WAITING。
5. TIME_WAIT
netstat -ant | awk ' /^tcp/ {++S[$NF]} END {for (a in S) print a,S[a]} ',统计机器中 TCP 连接各个状态数目。
服务器出现大量的 TIME_WAIT,要么是对方连接异常,要么是服务器没有快速回收资源。通过配置文件 /etc/sysctl.conf 修改 Linux 内核参数。
net.ipv4.tcp_tw_reuse = 1 #表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭 net.ipv4.tcp_tw_recycle = 1 #表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭
6. CLOSE_WAIT
常用的三个状态是:ESTABLISHED 表示正在通信,TIME_WAIT 表示主动关闭,CLOSE_WAIT 表示被动关闭。
CLOSE_WAIT 状态,就是在对方关闭连接之后,服务器程序没有进一步发出 ACK 信号。换句话说,就是在对方连接关闭之后,程序里没有检测到,或者程序压根就忘记了这个时候需要关闭连接,于是这个资源就一直被程序占用着。检查代码吧。