10 亿用户数据分库分表设计

2020-02-28 23:34:48 +08:00

pabno

使用 mysql 存储 10 亿的用户数据，用户表的设计是 (bigint user_id, bigint phone, varchar email)

查询分为两类 case：

用户登陆，可能会使用 phone 登陆，也可能使用 email 登陆
登陆后操作用户数据

目前方案：使用 user_id >> 32 % 2 分库，user_id >> 22 % 20 分表。user_id 由雪花算法生成

针对 case 2，直接用 user_id 取模就很容易定位到具体到库和表，但是 case 2 需要使用 email 或者 phone 反查 user_id. 暂时想到的就是在对 email，phone 分别进行分库分表再做查询，然后将数据缓存到 redis 中。当用户使用 phone 或者 email 进行登陆时，先查询缓存中有没有数据，没有再计算相应当分片库和分片表进行查询

不知道还有没有什么比较好的方案

8315 次点击

所在节点

程序员

37 条回复

daimaosix

2020-02-29 01:28:00 +08:00

直接上 TiDB，都不用做分库分表，100%兼容 MySQL，就像不曾离开 MySQL

akira

2020-02-29 01:40:01 +08:00

10 亿... 是国内的哪家大厂么。。

peyppicp

2020-02-29 01:45:23 +08:00

email，phone 分别存在两个分片库里，分别关联对应的 uid。比较操蛋的就是新用户进来的时候要双一写了。

luxinxin

2020-02-29 01:48:44 +08:00

其他还好，但感觉登陆并不是啥热数据，不需要 redis 缓存

luckylo

2020-02-29 07:22:26 +08:00

@akira 用户数量能过亿行业就那么些。
传统行业的运营商+银行 +某些垄断行业。这些基本上是 Oracle ，就算不是，也基本跟 mysql 没啥关系。然后就是互联网的那几个大厂

mikulch

2020-02-29 07:35:12 +08:00

@peyppicp 你这个操作相当于数据异构啦，那不上 es 加列数据库了

opengps

2020-02-29 07:59:10 +08:00

登录名缓存下来，值为数据库的路由标识

neoblackcap

2020-02-29 10:08:29 +08:00

同 @peyppicp 的解决方法，采取非规约化的方法对数据库进行处理，分别以 phone, email 为主键(cluster key)建表，关联 user_id。
问题还是在于用户注册时就变得需要一次性写三个表。不过这个不算是大问题，哪怕是后面进行分布式事务，这个性能也是可以接受的。

pabno

2020-02-29 10:53:03 +08:00

@luckylo
@akira
这个只是我类比过来当一个场景，为了方便说明问题。实际上是 10 亿设备（国内外都有业务），但是不同设备可能会有各种不同当 id，比如 gaid，androidid，imeiid

pabno

2020-02-29 10:53:37 +08:00

@luxinxin 这个确实是

pabno

2020-02-29 10:55:29 +08:00

@opengps 想过这个问题，但最终还是需要持久化下来。不然很久没有登陆后重新登陆没有命中缓存就找不到路由标识了

ifconfig

2020-02-29 11:14:41 +08:00

请问下，直接用分区不行么，为什么要分表

encro

2020-02-29 11:48:07 +08:00

应该没有更好的方案，如果通过号码查询的频率高，应该采用 kv 内存存储吧。
没有试过 kv 和数据库 hash 索引，10 亿数量级性能会差别多少。
楼主花半天做一个实验给我们看看？

到达这数量级，就是一个尝试验证改良的过程。

lovelife1994

2020-02-29 11:58:46 +08:00

@neoblackcap 如果登录数据不是热点数据，在有一级缓存的前提下，是不是单表做分区，在查询列上建 non-clustered 的覆盖索引就行了，这样能避免分库的带来的路由，双写和分布式事务的问题。感觉需要根据当前数据规模和预估增长的到的规模做下压测做取舍。如果 phone 和 email 都是可变更的，还要考虑分区，分表，分库间数据迁移怎么做。

neoblackcap

2020-02-29 12:25:56 +08:00

@lovelife1994 我提的那边理论上只要开发支持（分布式事务，查询变更），你说的几点都解决了。无论是 phone, email 的可变更，还是查询的性能。我说的主要是 Cassandra 的解决方案。
不过如同你所说，分布式方案肯定是有其他问题，路由，分布式事务。要结合生产环境取舍（压测）。这样的问题的确可以算是真正架构师的活了。

neoblackcap

2020-02-29 12:29:47 +08:00

@ifconfig 分区还是单机，分表就可以多节点了

justRua

2020-02-29 12:44:23 +08:00

es 存一份用于搜索，mysql 里做分表分库，现公司是这么做的，不过用户数据是千万级，没上亿

cabing

2020-02-29 13:00:31 +08:00

如果是单纯的用户表应该不会涉及到跨表事务吧。
一般的设计，登录相对应该是不频繁。case1 经常使用，case2 不那么频繁

说一个简单的方案：

针对 cace2 可以通过分布式的 kv(持久化)系统去存储，做备份就行，数据的变更，可以通过消息队列去更新。

此外还有针对活跃用户，还需要定期比对 case1 中的和 kv 系统中的数据。

kv 系统，可以考虑小米的 Pegasus，也可以找个类似的 kv 系统，也可以自己根据 rocksdb 撸一个。

如果 kv 系统只是存储 uid 的，

10 亿数据，如果只是存储 email=>(uid) phone=>(uid)

256 * 1000000000/1024/1024/1024 = 238G，其实存储数据量不是特别多。

此方案只是通过一次 email 或者 phone 寻址到 uid，后续的流程还是走到 uid 查询了。

dragonsunmoon

2020-02-29 13:21:00 +08:00

全球接近 80 亿的人, 地球上每 8 个人,就有一个人是你们系统的用户,牛逼,呵呵

dragonsunmoon

2020-02-29 13:22:03 +08:00

哦, 才注意到, 是设备,😅

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/648471

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.