请问有没有概率不均等的随机数生成算法？

在做相似商品推荐，给定用户的特征后后台会回一个向量串，里面分别是

[
A 对象和输入的相似度为 99.5%，
B 对象相似度为 99.2%，
C 对象相似度为 80%
]

等等等等以此类推由于推荐列表很长，实际能展示的只有几个，如果只取相似度最高的几个的话还好，但如果想随机选几个的话，有一定随机性，有没有一种随机数可以让相似度高的更多被选中，相似度少的更少被选中？

===

题外话，不是很严格的相似推荐，要求没有那么高，目前的系统满足需求挺好的，暂时不考虑从推荐系统方面整个改。。。

sblid

2022-12-07 20:49:12 +08:00

举个例子，a=3, b=2, c=1,
先做归一化，a=1/2, b=1/3, c=1/6,
使用 [0,1) 均匀分布抽样，k 属于[0, 1/2)，选 a ； k 属于[1/2, 1/2+1/3), 选 b ； k 属于[1/2+1/3, 1)，选 c 。

LeeReamond

2022-12-07 21:32:04 +08:00

@sblid
@huangsijun17 感觉需要进行一定的线性变换，毕竟按这个算法 100%关联度的也只比 10%关联度的容易出现 10 倍而已，而且如果列表比较长的话感觉这个计算挺耗时间的啊。。

luckykong

2022-12-07 21:42:58 +08:00

一个客户应该不会高频查询的。
服务器直接生成 10w 个不均等的抽样方法，每次随机选一个去跟全部相似商品列表匹配，然后再传出去喽

menc

2022-12-07 22:03:56 +08:00

经典带权随机。
线上最节省时间的解决方案：预生成大数组，infer 时 random integer ，以随机的整数为数组下标取数组值。

如 a, b, c, d 四个样本权重为 [1, 2, 2, 3], 生成 size 为 8 的数组，内容为[a, b, b, c, c, d, d, d]，然后 random int 即可。

一般加一个 id -> int 的映射，实际申请空间是个 int 数组，使用下来并没有很消耗内存，很经济。

Tanix2

2022-12-07 22:05:54 +08:00

如果是 python ，直接用库函数

import random

items = ["apple", "banana", "orange", "strawberry"]

weights = [0.995, 0.992, 0.8, 1]

# Select a random item with weighted probabilities
chosen_item = random.choices(items, weights)[0]

print(chosen_item) # Prints one of the items from the list

ccagml

2022-12-07 22:08:12 +08:00

按照一二楼的说法，如果你的列表是有序的，你可以 1-100 ，权重 1000000 ，101-999 ，权重 10000 ，1000-9999 权重 10 ，然后从（ 1000000+10000+10 ）中随机一个数出来，这个数就可以计算本次是选中哪一个

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/900886

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.