被奇葩 ESXi 问题困扰好几天了,救命!

2023-04-26 10:25:46 +08:00
 gvdlmjwje
是这样,有一台 x3850x6 lenovo 服务器,网卡是 intel i350 ,使用 lenovo 自定义镜像装了 esxi 。会发现经常 ping 不通 esxi 主机 ip ,但是同时去 ping esxi 主机上的虚拟机 ip 是通的。如果这时在 esxi console 下进行网络测试发现能够 ping 通网关,同时会发现这时能够 ping 通主机了。

所以一开始以为是网卡兼容性或休眠问题,进行过以下排查:
1.安装 esxi 6.5 6.7 7.0 等几个版本
2.BIOS 恢复出厂设置,主板和 esxi 都开启高性能模式
3.esxcli 弃用 igbn 使用 igb 驱动,关闭网卡 EEE
都没用

后来怀疑环路,因为发现 ping 不通的时候核心交换机上 esxi mac 会漂移到另一个口,该口上连深信服,深信服再连防火墙。不过和网络同事检查交换机发现,配的动态 mac ,且开了 STP ,核心 cpu 占用也不高,排除环路的问题。
试过端口绑定 mac ,问题依旧。

网络同事发现 pc ping 不通的时候 esxi 网段( vlan99 )的时候同网段的服务器能够 ping 通 esxi 主机,所以怀疑连接 esxi 主机端口配的 access 的关系,后来配成 trunk 口,esxi 虚拟交换机的管理端口设置 vlan id 99 ,但是也没用。

交换机 show arp 显示的是默认 240min ,应该也不是 arp 缓存时间太短。

总之,没辙了。。。ORZ 求老哥们指点下,还有什么排查方向。
1021 次点击
所在节点    问与答
10 条回复
lixile
2023-04-26 10:35:13 +08:00
遇到过类似的事情 就是一个 vlan 下 个别机器无法主动上线并联通其他 vlan 交换机之外的网络。但是主动从机器向外部发起 ping ,即可连通外网。
不知道我这有描述是不是跟你的场景类似。
我这边的话 经验就是全部网络内(虽然我更怀疑是同一 vlan 内有)有跟你机器同 mac 地址的机器 导致有问题。
网络配置方面无能为力,当时有这个问题网工因为规定无法提供所有规则和配置。所以我也不知道问题。
最后因为单方面我是做了个脚本,每次断电后通过外部连接进内部的一个稳定机器,逐一登录其他机器并主动呢发起 ping 。
gvdlmjwje
2023-04-26 10:40:47 +08:00
@lixile 对,很相似
我也考虑过 mac 地址重复的问题,换过网口( i350 t4 四个口),核心交换机用 show mac-address-table | in mac 检查过,只能搜出来一个 mac 地址。这应该表示不存在重复 mac 吧?
leonshaw
2023-04-26 10:41:02 +08:00
> 发现 ping 不通的时候核心交换机上 esxi mac 会漂移到另一个口

沿着这条线索查呀
gvdlmjwje
2023-04-26 10:52:13 +08:00
@leonshaw 我网络知识比较欠缺,请教下如果核心交换配置是动态 mac ,那么 mac 会漂移到另一个口上吗?还是说只会在插线的端口上?
漂移过去的那个口是核心交换机出口线,mac 漂移到这个口属于正常行为吗?
leonshaw
2023-04-26 11:07:04 +08:00
@gvdlmjwje 说明交换机在这个口上也收到过这个源 MAC 的包,应该是不正常的。看是什么拓扑了,一般来说只做出口的话应该只有网关 MAC
gvdlmjwje
2023-04-26 11:13:21 +08:00
G2/1 他上联是深信服 AC ,深信服 AC 再连接到 juniper 防火墙
lwjef
2023-04-26 13:17:09 +08:00
[疑问] 深信服 AD 对接华为交换机 mac 地址偏移问题
https://bbs.sangfor.com.cn/forum.php?mod=viewthread&tid=152479

把 stp 关了试试😢
qishouvip2022
2023-04-26 17:26:18 +08:00
核心交换机上是不是配置了静态 arp 表项?之前遇到过一次,排查了很久,后来发现是宿主机的 IP 绑定了其他的 MAC 地址
gvdlmjwje
2023-04-27 09:19:19 +08:00
@qishouvip2022 我用 show mac address-tables static 查了下,绑定的都是 switch 类型的,都是交换机;挨个查这些 mac 也没有发现出问题的 IP
gvdlmjwje
2023-04-27 09:26:32 +08:00
@lwjef stp 可不管乱关,没记错的话这玩意儿配置一下会引起网络波动,会断网几秒,以前碰到过 233 。这个贴我之前搜到过,那么时候没注意。后来楼里老哥说即使开了动态 mac 漂移行为也是不正常的,再看到这个帖我猜就是 mac 漂移引起的问题。

在 esxi 对应交换机端口设置 port-security 绑定 mac 地址发现无法 ping 通 esxi 主机,可能因为还有虚机也通过这个口,所以端口安全默认的 shutdown 策略导致口被关了。

后来 port-security 加了 switchport port-security maximum 2 参数,现在正常了。再也没出现 ping 不通了。

漂移原因还是没找到,233 可能要网络同事一起帮忙查查了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/935553

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX