机器学习的模型可以逆推出群体用户画像吗

2020-08-09 13:47:58 +08:00
 Mashirobest

如题,b 站 up 主图灵的猫发视频称 tiktok 被收购,那么背后的 ai 相关模型,可能会被美国通过对相关参数的分析,从而逆推出国内用户群体画像。(视频已挂)

疑惑之处:

1.这样的逆推有没有可能实现呢?

2.tiktok 会把国内的模型照搬过去,然后用海外用户的数据再调整参数吗?还是说从头建一个模型,用国外用户形成的数据集再重新训练,与国内完全分开,谈不上信息泄露

看过视频的相关从业者可以解答下疑惑吗?本人对人工智能相关知识并不了解,所以完全是站在吃瓜群众的角度去复述这件事情,可能说的不太准确

3166 次点击
所在节点    机器学习
13 条回复
JConlee
2020-08-09 14:32:47 +08:00
首先,个人感觉对微软来说,逆推完全没有意义。其次,如果有中间特征的话,可以实现逆推,什么都没有的话,我不知道怎么弄。
话说如果能完美逆推的话,深度模型训练不就变成了一个超高压缩比的压缩模型...
Issacx
2020-08-09 15:08:36 +08:00
tiktok 背后的模型大概是指它的推荐系统吧,虽然推荐系统在 16 年搭上了 deep learning 的车,但是在工业环境中大量应用的还是各种 feature 和 rule,这些东西听起来没那么 fancy,但是很好用。抖音的具体实现用了什么不太清楚,不过如果是神经网络基本很难逆推原始输入,这也不是现在的研究热点。
微软最在乎的大概是 tiktok 这块牌子和现有用户,模型它根据用户点击从头搭一个都行。
Mashirobest
2020-08-09 15:49:55 +08:00
@Issacx 受教了
Mashirobest
2020-08-09 16:01:11 +08:00
@JConlee 谢谢回答。不过原视频并不是针对微软,而是担心美国国家层面对模型进行逆推,从而导致国内用户画像泄露(基于 tiktok 的模型是照搬抖音的假设,当然也只是假设)。完美逆推出具体输入是不可能的了,但是逆推出国内用户这个群体的画像不知道是否可行
keith1126
2020-08-09 16:04:52 +08:00
我倾向于认为不可逆推,如果可以逆推的话,会出现一个有趣的结果:

可以根据模型逆推用户属性 -> 字节跳动现在掌握着 TikTok 的模型 -> 字节跳动掌握了美国用户的隐私 -> 字节跳动危害美国国家安全
lhx2008
2020-08-09 16:06:13 +08:00
虽然那个 UP 主是个机器学习的从业者,但是这种东西也过于玄幻了一点,Tiktok 肯定和抖音的数据池已经做硬隔离的
Mashirobest
2020-08-09 16:08:05 +08:00
@keith1126 你后面真说对了,美国佬现在就是以这种理由对 tiktok 进行审查,怀疑它泄露美国用户信息,危害其国家安全
Mashirobest
2020-08-09 16:11:36 +08:00
@lhx2008 嗯,我个人也是偏向这种观点,那位 up 有点耸人听闻的嫌疑
wjm2038
2020-08-09 16:17:03 +08:00
我偏向于 up 是骗小白骗点击量的,因为理论来说模型很难推回原本的数据,并且中国的模型应该不会直接拿到美国的 tiktok 用的,讲道理 music.ly 不是白收购的。 微软收购在乎的估计大部分也是用户量和流量,拿来就用多好
Issacx
2020-08-09 16:31:00 +08:00
关于推荐,多说一点。推荐主要涉及到两种 object:user 和 item (在 tiktok 里就是短视频)。国内版和海外版模型之间的可迁移性比较弱,因为首先用户不同(虽然可能潜在喜好相似),其次短视频本身也不同,在这种情况下迁移可能会产生负面效果,而且迁移的目的在于目标域(海外)数据较少,将源域(国内)的知识进行迁移,tiktok 明显不缺数据。因此迁移可能并不必要,按照相同思路从头训练一个比较好。
我觉得推荐就像搜索引擎一样存在反馈过程。更好的模型吸引更多的用户,产生更多的数据改进现有的模型,就像鸡生蛋蛋生鸡一样。tiktok 成功的原因有很多 ,推荐系统不是决定性原因,也不是最大的卖点。
lusi1990
2020-08-17 16:11:25 +08:00
人家有数据,不需要从模型出发。画像不过是基本信息+历史数据
imn1
2020-08-26 14:30:29 +08:00
你所说的其实不算逆推,或者没必要
逆推是这样的,y=f(x),已知 x,y,求 f,就是找出公式

分析一下状态
海外:y=f1(x),x/y/f 全部已知
国内:y=f2(x),x 已知? y 已知? f1==f2 ?
对于国内
如果 f1==f2,那不用求,直接用 f1,就看 xy 知道哪个求另一个,一般来说 x 不可求;
如果不等,除非能同时知晓 x/y,否则没啥用
shm7
2020-08-28 17:31:00 +08:00
y 夏天溺毙的人很多,想分析下原因;

找了很多 x,发现有个 x 是冰淇淋的销售量,和溺毙人数呈正相关。

如果从退音角度考虑,请问是否可以得出结论: 吃冰激淋和溺毙有很大关系!

哈哈。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/696839

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX