MySQL 每次随机取一些值，下次在剩下的数据池中再取，有什么好的解决方法吗？

从数据表中查询数值，分批次用，每次 10 条。用 order by rand() 之后，第一次用 10 条，第二次再用 10 条的时候，结果又 rand 了一次（搞得第二次取的 10 条数据中，有部分和第一次取的 10 条数据有重合）。

我想第二次用的 10 条数据，不要和第一次用的 10 条数据有重复；每次随机取值都是在剩下的数据池中取，有什么好的解决方法吗？

bosshida

2017-04-22 13:19:37 +08:00

增加一个字段 is_used ，用过就更新一下？

Jodal

2017-04-22 14:47:21 +08:00

一个方案是增加一个 where 过滤，然后 rand 。如 select * from table_name where id > x 。下次改变 x 值。第二个方案是 redis cache 起来取每次取完 10 条后， set 删除这 10 条，下次再取 10 条。仅供参考。

moult

2017-04-22 14:59:23 +08:00

加一个 rand_val 字段，每次插入的时候，就产生一个随机数写入。
读取的时候，也生成一个随机数作为条件进行查询
先查询 where rand_val > ? order by rand_val 如果没有结果，就查询 where rand_val < ? order by rand_val desc
也就是查询这个随机数附近的记录
读取之后，标记 rand_val=0 表示读取过了！

rogwan

2017-04-22 20:22:42 +08:00

@mringg 分页就是会出现我说的问题（第二页的内容和第一页的内容可能会有重复的部分）

@dsg001 你了解这样做数据量大了，查询性能会大幅下降吗？

rogwan

2017-04-22 20:27:12 +08:00

@Jodal
@moult

查了下资料，用 rand 加 seed ，然后再设置 offset 和 limit 。这样看起来好像没有重复了，现在数据量少，不知道实际性能是不是高效？

whileFalse

2017-04-22 20:50:25 +08:00

@rogwan 如果数据量很大的话，第二次查询 10 条出现第一次查询的结果的可能性非常低。
而且如果数据量大，生成一次随机列表可以用很久
所以数据量大你无论用哪种方式都没问题。

dsg001

2017-04-22 20:59:57 +08:00

@rogwan 准备每次都查询全部 id ？一次查询保存到内存，然后切片使用，再有需要则更新内存数据

kokutou

2017-04-22 21:36:59 +08:00

那么问题来了。。。
为啥不一次取 20 条。

ghostheaven

2017-04-23 00:27:43 +08:00

取出来的放到另一张表 b 里，取的时候 left join 一下这张表，多加个判断 where b.id is null

abcbuzhiming

2017-05-10 09:02:39 +08:00

@rogwan 我跟你说你这个问题我遇到过，我们的试验结论是 mysql 在随机查询上的性能完全无法接受，从 100w 样本中抽数据速度就会掉到需要 5-6 秒的程度（机械硬盘 7200 转）。后来我们是用 redis，把数据弄到缓存里，直接用代码随机，从缓存中抽取来解决的

rogwan

2017-05-10 12:24:33 +08:00

@abcbuzhiming 是的，后来我们也测试了一下，样本还没你 100w 那么多，就发现速度不行了。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/356608

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.