游戏开发经验谈（一）：游戏架构里隐藏的五个坑及其应对方案

如果想在 V2EX 获得更好的推广效果，欢迎了解 PRO 会员机制：
https://www.v2ex.com/pro/about

如果你经常使用铜币置顶主题，持有 V2EX Solana Token 会在每日签到时获得额外铜币：
https://www.v2ex.com/solana

This topic created in 2856 days ago, the information mentioned may be changed or developed.

随着移动终端硬件配置的飞速提升，手游行业开始从爆发期进入相对稳定的发展期。残酷市场竞争环境下，游戏公司纷纷寻求业务创新，手游重度化、VR/AR 游戏、经典 IP 回归之外，游戏出海和全球服也成为新亮点。这也意味着云服务需要承载越来越多后端服务器的支撑工作，合理的平台架构将成为系统稳定运行的基础保障。

迄今为止，UCloud 平台支持的游戏已经超过了 1000 余款，其中手游占据了 70%以上。在这过程中我们也陪用户踩过了很多“坑”，本文将结合以往的一些经验和成功案例，为大家阐释游戏架构设计上，可能会遇到的一些问题和解决方案。

场景 A：All In One 的 MudOS 架构

MudOS 是第一代游戏架构，目前应该是无人使用的历史里程碑了，之所以会在这里提到，是因为在云平台，仍然有不少用户使用数据、计算、日志全部集中于同一台服务器的 All In One 集中式部署架构。

以当前的技术来说，公有云还没能完全避免宕机对业务造成的影响，而宕机必然要导致业务一段时间内的不可用。一旦出现云主机内部系统崩溃，对于这种架构的服务器更是灾难性的。因为时间和数据都很难保证，最终可能必须通过备份文件才能进行回档。

此外，集中式部署架构对于云主机的性能要求非常高，随着业务的增长，开发者经常要重新调整配置，甚至最后直接购买物理云主机。同时，为了达到过高的性能要求，需要对云产品的硬件灵活性和弹性伸缩能力进行取舍，即使在购买了物理云主机的情况下，云平台的成本优化效果也无法达到最大化。因此，希望大家在游戏设计中规避掉这种集中式部署架构，尽量使用逻辑服或者微服务的模式。

场景 B：疯狂掉线

掉线对所有游戏玩家来说都是非常痛苦的事情，我们曾经手过一个疯狂掉线的案例，这个案例的独特之处在于玩家在游戏过程中很少发生卡顿和瞬移问题，但是会经常出现掉线现象，而且还是不定期的玩家集中掉线。掉线的时间点也非常巧合，基本上是在机房监控到 DDoS、或者地方级以上骨干容灾切换闪断的时候。

我们初步分析可能是业务和网络的特殊情况触发的，在和用户交流业务逻辑之后，了解到用户的游戏设计采用的是 TCP 逻辑：业务 1 分钟发出 1 个心跳包，如果 30 秒未收到 ACK 测试则认为客户端掉线需要重连。很明显，这种设计并没有考虑到丢包或错包等问题。

因为实际情况下，全球运营商的网络设备都有一定的错包率或丢包率，1 分钟 1 个心跳包模式下，一旦发生丢包，玩家在 1 分 30 秒内无法收到测试信息，必然会被系统剔除，导致掉线。而在容灾切换或者 DDoS 情况下，丢包或者错包的问题会更加严重，玩家会集中掉线也就可以解释了。

定位问题后，我们帮助用户对以上逻辑进行了修改，将玩家的掉线时间从 1 分 30 秒收敛成 30 秒，设置业务每 10 秒 3 个心跳包，超过 3 个周期未收到则视为掉线。每 10 秒 3 个心跳包的情况下，超过 30 秒就有 9 个心跳包，只有当这 9 个心跳包全部丢失，系统才会认为玩家离线。逻辑修改后会形式一个缓冲区，避免错包或丢包情况下造成的系统判断失误。

场景 C：单点 DB 的危机

下图的业务架构设计得已经相对完整，整个系统采用的是 DB 的主从架构，可能宕机造成的风险都已经规避，唯一的疏漏在于用户将 Cache 和业务绑定，一旦业务重启，整个 Cache 就会被清空，同时如果 Cache 达到上限也造成业务异常。

有一次用户的 DB 磁盘异常需要较长时间恢复，雪上加霜的是 Cache 即将写满，因为更改数据库指向必须重启业务，为了保证游戏的正常运行，又不能把业务切到从库。最后只好联合当时的 DBA、内核以及系统专家，耗费大量时间来恢复主库。

为了避免这种情况再次发生，后续用户直接将 Cache 层拆分出来放到我们的高可用 Redis 上来保证系统的稳定。

场景 D：Redis 崩溃

相信做游戏开发的人或多或少都经历过 Redis 崩溃问题。本案例中，用户采用了比较前沿的框架，它抛弃了传统数据库，直接使用内存存储作为数据的唯一存储器。全球服上使用的是微服务框架，不存在单点风险，业务能力非常强。但因为在研发过程中第一次使用集群化，所以也踩过一些坑。

问题一：Redis AOF 造成短暂查询堆积。 解决方案是进行分片操作，保证 AOF 时间不一样，将整体业务查询危机缩减下来。此外，针对游戏框架申请 DPA，尽量减少刷数据的可能性。

问题二：QPS 极限仅能达到数千，甚至出现了不定期慢查询卡死的情况。 查看代码和数据时发现，用户的业务语句中大量使用了 KEYS 命令且无任何限制，这就类似于在巨大的 MySQL 集群里 select *，解决方式是直接将所有 KEYS 风险语句进行调整和范围限制，保证业务的正常运作。

另外，集群 Redis 是基于 proxy 和 Redis 分片实现的，而非集群的原生 Redis 对短连接的处理性能极差，并且由于单线程的特性，非常容易因为短连接将 CPU 打满。对于 Redis 来说，即使提供最强的 44 核 CPU，最后程序运行的结果也是 1 核跑满，其它 43 个核围观。

因此，在设计游戏的时候，使用 Redis 要特别注意两点：1、集群 Redis 尽量少用 Keys 命令； 2、主备 Redis 尽量不要使用短连接，因为短连接过多会造成整体业务性下降，尤其在 Redis 特别集中的环境下，影响会非常严重。

场景 E：Register Server 单点

下图为一个实时对战场景的全球服架构，架构采用了自动注册机制，注册服务器类似路由表功能，会保存所有微服务集群的节点 IP 信息以供业务节点需要时查询调用。架构左侧上层为高可用数据库、高可用内存存储，下方是对战服务器和平台入口，右侧为工会聊天室，框架里面接入了四个对战服。这个框架的稳定性和扩展性都非常强，主机状态对整体业务的影响极小。