语雀这路子太野了

196 天前
 nekoharuya
https://mp.weixin.qq.com/s/WFLLU8R4bmiqv6OGa-QMcw
他们的公告的链接
考虑到 v 友的水平,我抛砖引玉分析一下
这帖子的意思大概是说,由于临时工在升级维护工具的时候,工具没有严格测试,直接上生产环境,工具的 bug 导致数据库服务器下线,联系硬件团队,硬件团队说上不了线,摆烂不玩了,你们自己恢复备份吧,然后花了四个小时恢复,俩小时验证数据,成功上线
我和几个朋友讨论了下,觉得非常的,不可思议
这是 2023 年的,语雀这个体量的公司,做出来的事情
正常的架构思维里,所有的服务,就不应该跑在同一台机器上,包括数据库,最次也该是个主从集群,集群下面的机器单例再考虑 raid 之类的东西
在这个设计下,不存在上不了线开不了机这种事情,机房被修卡军团占领了都没事
至于网上传的什么之前的技术负责人跑路了,新人不会操作
就正常的 devops ,后台管理面板里,全自动维护,包括版本控制,回滚,备份,集群,镜像,机器冗余,全部自动化管理
这不该是现在的标配吗
技术负责人跑路,新人不会操作,这句话假定的前提是,这一切都是手工完成的
语雀这么大公司,表现得跟路边三五个人创业的草台班子一样
28085 次点击
所在节点    程序员
183 条回复
cherbim
196 天前
10 月 23 日下午,服务语雀的数据存储运维团队在进行升级操作

这么大的公司竟然选择下午升级,语雀正常用户大部分都是程序员吧,这些人一般上午开开早会,然后下午干活,正好用户使用高峰期,这个升级时间选择,就 tm 的离谱,
s7964926
196 天前
别侮辱路边三五个人创业的草台班子,他们做的会更好。
minami
196 天前
人类组织的本质都是草台班子,那些看起来不草台的无非是里面有一小部分很牛逼的人顶着没出问题
yyzh
196 天前
很正常啊,支付宝当年不也一铲子下去之后就全国都挂了.所以那些扯什么异地双活啊异地灾备啊听听就算了.
porjac233
196 天前
阿里现在真是太拉了,每年都能出个 P0 的大故障,阿里云香港机房 C 区全面故障还记得吧。
xingdaorong
196 天前
听说外包团队已经开了,不知道真假
yhxx
196 天前
盲猜是很久之前上线的服务用了阿里云的旧型号的 ECS ,不小心删掉了,就没办法再买一个原样的出来了
然后一堆服务在新型号的机器上不兼容,只能手工处理
nekoharuya
196 天前
@cherbim 正常更新时间应该是周四,这是阿里标配,我在 b 站看极海 Channel 说的,所以这个是典型的,没有走版本控制,代码审计,连自动化测试都没有,“临时工“闭着眼睛直接上生产环境的案例
4kingRAS
196 天前
很明显,是裁员了,新接手的大学生不熟练
lqy2575395
196 天前
现在阿里系的服务吹什么高可用,都可以打个大大的问号了
tabris17
196 天前
所以,所谓的下线是指把云服务器的实例给删除了嘛?
nekoharuya
196 天前
@yhxx 你这个分析太离谱了,首先,跑在容器里的服务,绕过阿里云的账户权限管理,把容器给删了,这个事情是做不到的,那就只能是拥有后台权限的人自己操作,删库跑路了
Conantv2
196 天前
带头人走了,团队变得松散,重要但万年不用一次的关键环节被忽视,不奇怪。当初把大部分人员抽走搞钉钉文档,结果钉钉文档没搞起来,语雀重新扩充团队却越搞越好,其实从这点就可以看出项目带头人的重要性。

以阿里的尿性,不能自负盈亏的项目都搞不长久,不久的将来,阿里旗下几大文档必定砍掉部分,不知道会不会是语雀。
pengtikui
196 天前
> 14:15 联系硬件团队尝试将下线机器重新上线; 15:00 确认因存储系统使用的机器类别较老,无法直接操作上线,立即调整恢复方案为从备份系统中恢复存储数据。

被你说成

> 联系硬件团队,硬件团队说上不了线,摆烂不玩了,你们自己恢复备份吧

造谣真简单啊
Mess1ah
196 天前
你的思考里面,从 跑在同一台机器上 这里开始就已经是全错了
Aliencn
196 天前
看起来是存储的集群太老了,有一些隐患没人敢优化,毕竟这种优化可能会造成无功有过。于是击鼓传花,直到一个倒霉蛋引爆了它。


不过我疑问的是,使用冷备恢复的数据,公告里还说所有数据都没丢失是怎么做到的。备份之后到问题发生之前的那些数据呢?
isbase
196 天前
@yyzh 有一说一,这个事情之后的多年直到今天,支付宝再没挂过。语雀看起来并没有用支付宝那套主流部署架构。
ersic
196 天前
openai 不也照样经常 down ,有时也几个小时
theChampion
196 天前
质疑草台班子 理解草台班子 成为草台班子
aeli
196 天前
运维工具,是不是引入了 terraform 之类的自动化定义,然后把资源给删除了?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/985202

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX