一个 abtest 实验中 redis 设计的思考

一个关于 abtest 需求的 redis 场景问题，
需求：需要将用户分成 abcd 四个桶，不同桶内用户看到的信息不同，第一次分桶时需要将分桶结果发送给数据部门。
实现：将用户 id 经过 murmurhash 计算出来的哈希结果按 4 取模，得到分桶信息，将该结果保持到 redis 中，每个用户一个 redis key ，字符串类型存储，如 abresult_11111(user_id):1,程序开始执行时先读取 redis ，如果存在分桶记录，那么直接返回，不存在则进行分桶操作，并将分桶结果发给数据部门

疑问：
目前这个设计是一个好的设计吗？百万级别的用户量的话，是不是会生成百万的 redis key ，印象中 redis_key 过多不是一个好的设计，比如不好管理等。
我能想到的几个问题：
1.印象中用 hash 结构来存储，会被这种存储方式节约内存,但是用 hash 来存储必然导致 big key 问题，当然在这种场景下面，不涉及像 getall 那样的 O(n)操作，是不是 big key 问题可以基本忽略不计？印象中 big key 可能导致的问题不止是性能问题，还有像数据倾斜导致的访问倾斜问题等，所以用 hash 来存储的话是不是也要那用户 id 来做分片才是比较合适的方案？
2.redis 的删除是惰性删除+定时删除，定时删除基于取样，取样的话如果失效的数据过多，印象中会一直不断的循环删除，指定取样的结果不满足为止，想知道这个定时删除是在主进程上完成的吗？如果过多的 key 失效，会阻塞 redis 进程吗？

大佬们，一起讨论下啊？一个是上面提出的一些问题，还有就是如果是你们来设计的话会怎么设计？

fivesmallq

2023-06-06 12:52:55 +08:00

一般来说都是不记录的，client sdk 直接算，提供好统一的 sdk ，或者你们提供 api ，server 计算就可以。每次同步给他和他直接拿结果没有太大区别。可以看看几个开源的 ab test 项目的实现，有的用的是 MurmurHash 有的是 FNV

https://github.com/Unleash/unleash/issues/247

https://docs.growthbook.io/lib/build-your-own#hashseed-string-value-string-version-integer-floatnull

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/946008