有熟悉 TCP4 次挥手的么？请教一个昨天遇到的问题

90928yao

2018-12-18 10:03:58 +08:00

兄弟出现 time wait，close wait 一般都是自己代码写得有问题不是内核参数问题

EchoUtopia

2018-12-18 10:08:03 +08:00

用连接池吧

a663

2018-12-18 10:11:35 +08:00

@90928yao 我是运维😂😂😂😂

a663

2018-12-18 10:11:50 +08:00

@EchoUtopia 代码里面的连接池么？

liuxu

2018-12-18 10:13:43 +08:00

@90928yao 不是吧老哥，这 2 个状态是 TCP 必有的，TIME_WAITE 是为了防止 2 个 tcp 连接重传串包

liuxu

2018-12-18 10:18:46 +08:00

快速释放 time_wait 设置这 2 个参数：

net.ipv4.tcp_timestamps=1
net.ipv4.tcp_tw_recycle=1

meik2333

2018-12-18 10:18:48 +08:00

坑的话就是如果正好有阻塞的包在连接结束后又发送到了的话，可能会发生混乱。

网络环境越好出现概率越低，要同时满足：主动关闭一端已经结束、有包被阻塞在途中且最后成功被送达、正好有同样端口的新连接这几个条件，才会出现混乱。

a663

2018-12-18 10:28:37 +08:00

@liuxu 关闭本机的 timestamps 是为了避免 recycle NAT 后的坑吧？但是这样子不会对本机带来什么坑么？

a663

2018-12-18 10:31:16 +08:00

@liuxu 记错了这样子操作，主机 NAT 在后面，会有坑

SilentHill

2018-12-18 10:42:40 +08:00

@liuxu 代码问题，time_wait 是由于主动关闭连接方引起的，client 有大量的 time_wait，说明 client 频繁的开关连接，要么使用连接池，要么在同一个连接做尽可能多的事情，避免频繁开关

goofool

2018-12-18 10:43:46 +08:00

改了这些参数问题解决了吗，端口还是会被占用吧。

liuxu

2018-12-18 10:54:30 +08:00

@SilentHill 高负载的时候肯定会有大量 time_wait 吧，特别是做活动某一时间段有高峰流量的时候，新来的 client 远远大于连接池数量的时候

bolide2005

2018-12-18 11:12:30 +08:00

client 主动断开产生 time wait，这是再正常不过的情况，tcp 协议就是这么规定的，楼上一些同学说连接池之类的，还是没有抓住问题的关键，关键在于 3006 是某个应用要监听的端口，但是被 tcp 自动分配的连接给占用了，这种情况，即便使用连接池也无法完全规避，万一(1/(65536-1024))连接池正好占用了 3006 呢？

即便按楼主的方案修改和 time wait 相关的内核参数，也不能完全规避，最多只能把冲突时间降低。我给的建议是修改 /proc/sys/net/ipv4/ip_local_port_range 文件，把 tcp 自动分配的 port range 提高，比如分配范围在 20000~60000，这样一些知名软件预留端口就基本都避开了。

hcymk2

2018-12-18 11:17:35 +08:00

/proc/sys/net/ipv4/ip_local_port_range 这个一般都是很高的吧,除非有人修改过了

Orzpls

2018-12-18 11:19:59 +08:00

@liuxu 提醒各位，不要开这两个参数，开了有反作用，一大堆 RESET，关了就好了，生产环境曾经开过的人留。

xi2008wang

2018-12-18 11:21:00 +08:00

不要随便设置 tcp_tw_reuse，基本没啥用，
还会导致 NAT 环境下用户访问你的服务时不时丢包导致异常

liuxu

2018-12-18 11:30:40 +08:00

@bolide2005
@hcymk2
@Orzpls

默认最小 32768，楼主 client 能分到 3006，肯定是改过的。

这个很难办，我曾经遇到过这个问题，我司线上服务器默认最小 32768，但也遇到了大量 time_wait 没释放导致无法新开连接的情况，高峰会持续 30-60 分钟，php 日志频繁报“ Cannot assign requested address ”，所以加了那 2 个参数

nekoyaki

2018-12-18 11:32:09 +08:00

楼上有几位提到了 net.ipv4.tcp_timestamps、net.ipv4.tcp_tw_recycle、tcp_tw_reuse，但是这三个参数需要根据实际环境决定是否开启，不能乱开。网上很多二手资料非常误导人。

1、如果开启了 timestamps，但相关机器时间不一致的话，开启 tcp_timestamps 会导致网络连接出现问题，当且仅当你们确定内网涉及到的相关机器都有 ntp 同步时间才能打开。
2、如果关闭 timestamps，recycle 和 reuse 都不生效。网上有的二手垃圾资料教你关闭 timestamps 开启 recycle 和 reuse，没用的。
3、如果确实有 ntp，那么开启 timestamps 和 reuse 就可以了，不要开启 recycle。recycle 是有问题的，新版本内核(4.12)已经废弃了这个参数，reuse 更安全。

fxxkgw

2018-12-18 11:51:20 +08:00

系统内核参数不要乱改，尤其是在 NAT 环境下，网上关于 TIME_WAIT 的资料满天飞，但是绝大多数都是没用的。
1，优化代码，各种 socket 主动关闭
2，最好的办法就是扩容资源。

90928yao

2018-12-18 15:05:16 +08:00

@liuxu 是有啊但是大量出现这种状态 90%的情况下是自己代码写得有问题哈哈，我自己遇到几次了都是自己代码问题