求助帖 如何收集 B 站所有用户 UID

120 天前
 mingde816

如题,想收集 B 站所有用户的 UID ,但是 B 站现在用户 UID 位数已经达到了 16 位,简单的遍历似乎已经无法完成这个任务。 目前的进展: 测试了一个 16 位 UID 的上下账户,发现是连续的,疑似 B 站的散列是制造了一些固定的前缀,再以此分配 UID ,可以按一定间隔尝试寻找锚定点,进行查找。 下面这篇专栏也有一样的发现。 https://www.bilibili.com/opus/833100467182501892

5710 次点击
所在节点    程序员
47 条回复
moefishtang
120 天前
https://space.bilibili.com/{uid}
bilibili 个人主页后面跟随的就是用户 id ,从 uid=1 开始,不停++,尝试访问对应的个人主页
能访问成功就记录用户 Username 和对应的 uid ,不能则标记为空 uid ?
感觉这个方法有点笨,而且会不会被 bilibili 风控?
NaVient
120 天前
当然是看 b 站的泄露代码看看 uid 的生成规则啦(不是
至少对 21 年以前的用户是有效的
mingde816
120 天前
@moefishtang 16 位 UID 你拿什么遍历,而且高并发直接风控,一秒 10 个用户都做不到(实测)
Belmode
120 天前
提供个思路,感觉技术可行:做个 B 站 XX 插件、脚本,让别人去下载,收集使用插件、脚本的人的 uid ,并且同时收集他们的关注列表。


我告诉你,最好不要干这种事,这是非法的!收集用户信息这种行为比爬页面还危险的多,非常可拷,起步就是 6 个月,罪名是:非法侵入计算机信息系统罪。你没有那些巨头流氓有证,能“合法”搜刮用户信息,你小公司、个人敢干就等着吧。(身边亲眼所见被抓的)
jaTomn
120 天前
提供一个思路,找几个粉丝最多的 up 主,dfs 粉丝树
mingde816
120 天前
@jaTomn 可查看的粉丝数量有限,不多于 200 个
jaTomn
119 天前
@mingde816 #6 看来 b 友早有防备
loser123
119 天前
@moefishtang 按理来说没拿到鉴权的 token 是无法获得对应用户信息的, 除非没做水平鉴权
mingde816
119 天前
@loser123 这个玩意貌似吃 IP ,我第一遍每秒稳定 40 个请求,总共是 10200 条请求,请求到第 4800 个开始风控,我做了并发和速率限制,然后后面全部失效。我第二遍尝试总共成功了一次,第三遍成功了 900 次。然后现在稳定风控。()
defaw
119 天前
除了扫没有办法,有一个取巧的办法是买别人在 b 站加强风控之前爬好的数据。
Doiiars
119 天前
搜索引擎抓过的东西可以用搜索引擎加速的。
bojue
119 天前
@Belmode 爬虫招聘页面也是吗?最近也在纠结,低频爬了大厂的招聘信息(跑起来每天 10s/1 条的样式),还没处理聚合
guo4224
119 天前
滚,别爬劳资的资料
Belmode
119 天前
@bojue #12 有些人明明肉身在境内,又没有大厂那种合法强盗的“证”,又偏要犟,等到刀斧加身,才知道后悔。
lucasdev
119 天前
@mingde816 #3 这就是最简单直接的思路,应对风控需要准备号池和 ip 池,都可以买。
Belmode
119 天前
@bojue #12 我只能这么说,你自己玩没事,但是万一你被对方发现了或者你爬的数据暴露出去,又实锤从你这拿的,那你就完了。
bojue
119 天前
@Belmode #16 感谢
RlyehHime
119 天前
好奇要这个干吗的
h1298841903
119 天前
@mingde816 #6 200 个也不少了吧,这样递归查询,同时查询粉丝和关注,在通过搜索关键字,通过视频查询 UP 主,感觉几轮下来,就收集的差不多了,剩下的估计就是僵尸号了。 可以通过抽样的方式,看自己搜集的比例。
duanxianze
119 天前
行走在违法犯罪的边缘

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1132841

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX