一个 abtest 实验中 redis 设计的思考

344 天前
 ben548
一个关于 abtest 需求的 redis 场景问题,
需求:需要将用户分成 abcd 四个桶,不同桶内用户看到的信息不同,第一次分桶时需要将分桶结果发送给数据部门。
实现:将用户 id 经过 murmurhash 计算出来的哈希结果按 4 取模,得到分桶信息,将该结果保持到 redis 中,每个用户一个 redis key ,字符串类型存储,如 abresult_11111(user_id):1,程序开始执行时先读取 redis ,如果存在分桶记录,那么直接返回,不存在则进行分桶操作,并将分桶结果发给数据部门

疑问:
目前这个设计是一个好的设计吗?百万级别的用户量的话,是不是会生成百万的 redis key ,印象中 redis_key 过多不是一个好的设计,比如不好管理等。
我能想到的几个问题:
1.印象中用 hash 结构来存储,会被这种存储方式节约内存,但是用 hash 来存储必然导致 big key 问题,当然在这种场景下面,不涉及像 getall 那样的 O(n)操作,是不是 big key 问题可以基本忽略不计?印象中 big key 可能导致的问题不止是性能问题,还有像数据倾斜导致的访问倾斜问题等,所以用 hash 来存储的话是不是也要那用户 id 来做分片才是比较合适的方案?
2.redis 的删除是惰性删除+定时删除,定时删除基于取样,取样的话如果失效的数据过多,印象中会一直不断的循环删除,指定取样的结果不满足为止,想知道这个定时删除是在主进程上完成的吗?如果过多的 key 失效,会阻塞 redis 进程吗?

大佬们,一起讨论下啊?一个是上面提出的一些问题,还有就是如果是你们来设计的话会怎么设计?
1883 次点击
所在节点    Redis
29 条回复
awalkingman
343 天前
@ben548 是 many key 不是 big key
ben548
343 天前
@awalkingman 百万级别的 hash 不是 big key 吗?我理解是的,big key 和 many key 是怎么划分的呢
awalkingman
343 天前
@ben548 我的意思是,每个 key 内容是用户 id ,value 就是这个用户的分桶数值。不用套进 hash 或者其他集合容器,这样就会有数百万个 key ,就是最基本的 key:value
tsutomu
343 天前
我们部门代码都是 key_uid 这样拼成的 key ,最多能有几千万。hash 是不让用的,太大了,很容易触发读写频控,好像还会导致打在一个实例上导致负载不均衡啥的,这个就不清楚了。
ben548
343 天前
@tsutomu 对的,这些都是 big key 的坏处,然后也不是不可以解决,hash 分片就行,分的足够碎就不会有这样的问题了
fivesmallq
343 天前
一般来说都是不记录的,client sdk 直接算,提供好统一的 sdk ,或者你们提供 api ,server 计算就可以。 每次同步给他和他直接拿结果没有太大区别。可以看看几个开源的 ab test 项目的实现,有的用的是 MurmurHash 有的是 FNV

https://github.com/Unleash/unleash/issues/247

https://docs.growthbook.io/lib/build-your-own#hashseed-string-value-string-version-integer-floatnull
Masoud2023
343 天前
我最近总觉得取模这个东西不太好...如果某天突然要分成 5 个就要涉及到一个重新分区的问题...到时候就.爽了
BQsummer
343 天前
abtest 大部分是入组不出组的, 所以要记录入组信息, 方便下次进的还是同一个组. 我们公司就是 map 存的, key 是 uid, 可能是用户量不大, 日活才 60w, redis 扛得住.
seth19960929
342 天前
@ben548 按 userid 尾号切分

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/946008

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX