centos7 主机 ssh 卡住也不报错 crond 无反应 必须强制物理重启 但 docker 里的容器都正常

227 天前
 binbin0915jjpp

RT 设置成每天重启也不行 因为有的时候撑不了一天 感觉宿主机系统死了 怎么排查 128G 内存也只吃了 30 几 G 资源充足的

831 次点击
所在节点    服务器
17 条回复
shixuedela
227 天前
首先排查是不是网络问题导致的 ssh 卡住,
然后查 log
dode
227 天前
做一个 webhook 重启 sshd 服务
idontnowhat2say
227 天前
tty 先直接输入账号密码登陆下看看排除下到底是不是 sshd 进程的问题。
LindsayZhou
227 天前
问这种问题很不好,没有足够信息别人只能盲猜。

我猜是 profile 里有东西卡住了。
如果是 bash 的话,试试 --noprofile --norc 参数吧。

ssh -t remote_host bash --noprofile --norc
binbin0915jjpp
226 天前
@LindsayZhou 就是不知道怎么查 只是描述现象 感觉是 amd 机器的锅 不稳定?
julyclyde
226 天前
首先,你提到“宿主机”那你是用了虚拟机吗?建议先描述清楚这层关系
binbin0915jjpp
225 天前
@LindsayZhou 无效
[root@f0ba92c6c19b /]# ssh -t 192.168.1.3 bash --noprofile --norc
The authenticity of host '192.168.1.3 (192.168.1.3)' can't be established.
ECDSA key fingerprint is SHA256:tFOfvXN7u9diTevMb9tapK3zT9MacXNVFTb875aud2E.
ECDSA key fingerprint is MD5:ac:f3:78:2c:62:50:02:7e:a6:3d:c0:68:1d:c7:54:0a.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added '192.168.1.3' (ECDSA) to the list of known hosts.
root@192.168.1.3's password:
packet_write_wait: Connection to 192.168.1.3 port 22: Broken pipe
binbin0915jjpp
225 天前
@julyclyde 就是一台 Centos7 服务器(叫他宿主机) 上面跑了很多容器
binbin0915jjpp
225 天前
容器运行都没问题 但是主机自己的 ssh crond 服务器都死了
julyclyde
225 天前
@binbin0915jjpp 主机自己的 ssh 、crond 都死了啊,那你有没有对它进行性能监控呢
看看出问题瞬间有什么指标飙升的情况吗?比如进程数、内存用量、swap 速率、tcp 连接数、打开文件总数之类的
binbin0915jjpp
225 天前
@julyclyde 没有 关键到机房直接操作 也不行 ssh 死的 本地也连不上..
spediacn
225 天前
128G 应该是物理机吧

建议按楼上这位哥的来,看看进程数、内存使用、swap 速率、tcp 连接数、文件句柄数,如果因为死掉没法看的话,旁路接一个交换机的端口镜像,持续抓包看是不是有异常连接数大户吃光了

再者,我也遇到过几次莫名其妙死了的情况,盲目扩句柄数、会话数、缓存这些参数可能改完是正常的,但遇到一些极端环境(比如某些进程占用过大)才能发现问题。我觉得多数都是 sysctl 里头的参数配置导致问题,如果你修改过 sysctl ,将修改内容注释掉跑几天试试。

如果直连互联网没做防护的话,大概率被打。
julyclyde
224 天前
@binbin0915jjpp 插键盘也登录不上嘛?是卡在输入密码之前还是输入密码之后?
binbin0915jjpp
224 天前
@julyclyde 输入之后
binbin0915jjpp
224 天前
怀疑是这 2 个参数 之前改的过于夸张大
ClientAliveInterval 60
ClientAliveCountMax 1500
改回来了 暂时还没死
julyclyde
224 天前
@binbin0915jjpp
本地登录,“login 冒号”是 getty 程序提供的
你输入用户名之后它 exec 了 login 命令,由 login 命令提问“password 冒号”,并进行验证
然后 exec shell
按说这一系列都不会额外多出进程数来,打开文件数会增加,所以猜测应该不是这两项满了导致的

往内存量方面考虑一下试试?
binbin0915jjpp
224 天前
@julyclyde 128G 内存 自用了 30 不到 top 里也基本正常

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/979966

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX