阿里云,你家的 NAS 是不是有问题呀

2017-08-21 09:19:08 +08:00
 kenshin912
ticketId=3E8D6E7

从昨天凌晨开始 , 连续有服务器内出现
Aug 20 13:37:14 iZbp17ci9xxxxxxx kernel: nfs: server xxxxxxxxx-iyd10.cn-hangzhou.nas.aliyuncs.com not responding, still trying
Aug 20 13:49:17 iZbp17ci9xxxxxxx kernel: nfs: server xxxxxxxxx-iyd10.cn-hangzhou.nas.aliyuncs.com not responding, timed out

不能这么玩呀 , 已经严重影响我司的业务了啊!
能赶紧看看嘛?
5902 次点击
所在节点    全球工单系统
15 条回复
odirus
2017-08-21 10:02:51 +08:00
检查了一下我司的,还好没有受影响

NAS 是该被吐吐槽了,居然不支持备份,我咨询工程师说只能自己备份,该功能以后可能会发布
kenshin912
2017-08-21 10:08:34 +08:00
@odirus
我是真的无力吐槽了啊 .
昨天凌晨 1 点多,一台服务器出现这个问题,我早上被报警搞醒, 以为是偶然出现的问题,解决了以后发了工单请工程师帮忙看看什么原因,就出去玩了.

昨天下午 5 点多再次收到报警,另一台服务器出现同样的问题 , 赶紧找了个网吧 , 连入公司内网登录服务器解决.

今早上班途中接到公司技术总监的电话说又出问题了 , 到公司发现第三台服务器出现了这个问题 , 刚解决 ,第四台服务器也出现问题了.都是同样的问题 , NAS 无故就连不上了.

真的,心好累....
odirus
2017-08-21 10:17:33 +08:00
@kenshin912 表示理解

他这个方案目前看起来并不是特别成熟,很多功能都不完善,我们目前主要是共享一些软件、项目的配置文件,这些配置文件加载了之后就不需要再次加载了,所以 NAS 对我们影响不大

BTW:
会不会因为网络的原因导致的呢?如果使用的经典网络需要考虑这个问题,因为经典网络里面经常会有一些流量互相攻击的情况,普通用户的网络难免受到影响。我们现在已经全部迁移到 VPC 里面去了,这几个月比较踏实,没出现什么故障。
kenshin912
2017-08-21 10:26:52 +08:00
@odirus
确实是用的经典网络 , 感谢您提供的思路 , 我工单里问问阿里云好了.
我们主要是用在 web 服务上 , 共享一些配置文件 , 部分缓存什么的.

顺便请教一下 , 有没有什么无缝迁移到 VPC 的经验呀...
mudenng
2017-08-21 11:42:36 +08:00
可能是经典网络被攻击了,能私信我提供下联系方式吗?我帮你反馈下,稍后会有人联系你的
kenshin912
2017-08-21 11:58:36 +08:00
@mudenng
谢谢~已经有工作人员电话联系我了. 说是开发那边在看呢.
工单的 ID 是 3E8D6E7
感谢~
odirus
2017-08-21 12:46:49 +08:00
@kenshin912

迁移中遇到最大的问题就是数据 RDS、缓存 Redis 之类的;域名相关的都可以通过代理转发的方式发送到 VPC 进行处理,迁移完成之后统一修改域名解析,同一个地区的 VPC 和 经典网络,延迟会增加几毫秒的样子(我这边是来回增加了 4ms,晚上高峰期增加到 6ms 的样子)

我在处理 RDS 迁移的时候,阿里云还不能保留经典网络地址,也就是说这个地址要么是 VPC 地址,要么是经典网络,所以我自建了 DNS 来处理内网地址映射到公网地址的事情(劣势就是有一边需要通过 RDS 公网地址来访问,增加了访问开销,优势就是全部应用不用修改任何的配置)。不过现在阿里云意识到这个问题了,解决方案是这个(保留以前经典网络的同时创建 VPC 网络地址,劣势就是 VPC 环境中的代码要修改 RDS 地址,如果项目很多,像我们这种几十个项目,每个项目都是多机部署,我建议还是考虑其他更加合适的方案): https://help.aliyun.com/document_detail/57947.html?spm=5176.product27706.6.608.pODIHf

我在处理 Redis 迁移的时候,遇到的坑就是从经典网络到 VPC 之后,遇到故障不能切换回经典网络!!!(阿里云的工程师们,你们多花点时间,这个功能还是得有啊),那次把我吓惨了,不过还好我准备了备用方案,而且是在凌晨的时候实施的,没有明显地影响用户。

如果要做迁移,最好用测试环境模拟一遍全部的迁移过程,把流程固定化,然后按部就班地迁移,否则很容易出错,那个时候心里一慌,更容易出事故。


BTW:
如果有任何疑问,可以咨询我,我上次迁移规模是二十多台服务器 + N 台 Redis + MongoDB (从 PHP、Python 到 Java ),所以总结出来的经验还是非常丰富的

我不是专业运维,不过这几年我都是在负责开发和运维
kenshin912
2017-08-21 13:27:26 +08:00
@odirus
感谢指导~我司大约 20 台左右的业务服务器 , 大部分是 Web , 剩下的 RDS 和 Redis 都买的阿里云的服务.
我想过 , 迁移的时候必然要更换 RDS,Redis 的地址, 但是并没有想好该如何处理,没什么经验~
还有那个虚拟交换机,我还真没用过有点害怕.
我是挺想迁移到 VPC 的 , 不过我只是一个打杂运维,说不上话,能不给自己找麻烦还是不找麻烦了 , 如果要迁移到 VPC 的话,再请教您 , 感谢~~

@mudenng 阿里云的工程师已经回复我说 , 因为 nas 服务网络列队出现拥塞导致的.
希望别再出现这个问题啦 , 不然就要被老板找麻烦啦~

我想说的是 , 我现在去烧个香 ,还来得及不...
ysicing
2017-08-21 13:49:34 +08:00
有后续吗,我们也遇到 NAS 导致某些业务不可用
kenshin912
2017-08-21 14:04:21 +08:00
@ysicing
啊 , 有后续 , 就是阿里云说是 NAS 服务网络队列拥塞导致的.
让我们再观察...

不多说了 , 我去找老板建议今年旅游地点选九华山 , 码农去求佛祖保佑代码没有 bug , 我去求佛祖保佑服务器不出问题, 销售去求佛祖保佑业绩暴涨......(天哪 , 我又开始做梦了,哪有什么旅游?)
ysicing
2017-08-21 14:53:04 +08:00
@kenshin912 我提了工单,好长时间都没回馈。唉。
mudenng
2017-08-21 15:55:49 +08:00
@ysicing 工单 ID 是多少? NAS 的问题是由于网络队列拥塞导致的,已经恢复了
mudenng
2017-08-21 15:57:18 +08:00
@kenshin912 NAS 本身是支持经典网络和 VPC 同时使用的,你们可以创建一个 VPC 挂载点,然后把 ECS 全部切换到 VPC 后通过 VPC 挂载点访问文件系统。
kenshin912
2017-08-21 16:01:12 +08:00
@mudenng
亲 , 我司还用到 RDS 和 Redis 呀 , 还涉及到反向代理里面诸多配置 , 牵一发动全身...
如果要迁移到 VPC , 我去发工单能给个详细的解决方案不...(捂脸)
ysicing
2017-08-22 10:01:16 +08:00
@mudenng 已经回了。但是没告知 NAS 的问题是由于网络队列拥塞导致的,就是是让我们试试,都好了让我试啥

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/384443

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX