AI 大模型时代,个人隐私的获取比以前更加容易

194 天前
 xiaohupro

AI 大语言模型我们在使用的时候都是明文过去的,大厂的 AI 工具都需要实名手机号登录后使用,那这样岂不是个人的数据大厂们都能比以前更加准确的了解吗?根据这些准确的个人数据分析后再做定向的一些广告或者其他操作岂不是更容易,感觉比以前通过网页或者 APP 获取用户数据来的容易多了。甚至让普通开发者获取用户数据的门槛也降低了,搞一个 AI 应用,只要用户使用,不需要通过隐私条款,用户的隐私在不经意间就通过 Prompt 的方式发送到了开发者的服务器。

3656 次点击
所在节点    随想
28 条回复
zjsxwc
194 天前
我花钱买了你的 api 调用次数,你还要卖我隐私,来给我发定向广告?
xiaohupro
194 天前
@zjsxwc 哈哈哈,有职业道德的应该不会吧,应该~~~
wysnxzm
194 天前
你用输入法不一定在用 ai,但是用 ai 一定得用输入法
你是不是不知道输入法的盈利就是靠卖个人数据?
xiaohupro
194 天前
@wysnxzm 输入法我只用自带的,搜狗这类的肯定会有用户隐私收集
masterArcher
194 天前
@wysnxzm ≡(▔﹏▔)≡输入法拿隐私数据甚至不加密,参考三星搜狗定制版()
TellMeWHY
194 天前
有可能透露个人隐私信息的咨询我都用外网 ChatGPT 或 Gemini ,一些国内通用政策咨询 DeepSeek ,合理利用 GFW 墙,两边都能防。
LaTero
194 天前
"大厂的 AI 工具都需要实名手机号登录后使用"那就别用这些“大厂”。而且国内这些大厂效果也不好啊,也就是便宜。
clf
194 天前
AI:有没有可能,你的数据已经泄露成筛子了,你和我对话的这点东西,我早知道了,知道的还比你清楚。没主动给你提建议已经算我克制了,不想吓到你。
ndxxx
194 天前
这个帖子怎么还没触发 [微信输入法] 使用汇报大军的出现?排面呢 🤡
dajj
194 天前
你的想法很准确, 可以去干产品经理了
xiaohupro
194 天前
@clf 哈哈哈,想一想以后 AI 可以根据历史对话记录生成一些“定向想给你看到的回答”的话,感觉那才是真正牛 X 的广告
xiaohupro
194 天前
@ndxxx 刚出来的时候我就准备试用,但是在下载的过程中,走到安装中的时候我毅然决然的取消安装了,因为我想到了一些事情……,哈哈哈
TimePPT
194 天前
对广告推荐来说,从你问大模型问题里挖掘喜好搞广告,还不如你刷小红书/抖音 feed 流点击查看的反馈收集来得直接。
以及,就算输入 Query 分析的用户画像,Google / 百度都做了十几二十年了。又不是 LLM 时代才有的新鲜玩意。
TimePPT
194 天前
@TimePPT 还有,绑定手机号是有关部门规定,强制实行也十多年了,跟大模型也没啥关系。反而是,有司现在要求各家 LLM 加明水印、暗水印,方便回溯来源影响会更直接。
xiaohupro
194 天前
@TimePPT 过去的收集比较直接,通过点击、收藏等操作直接判断,大模型这种通过输入的方式其实不是最主要的,主要是现在各大平台都开始支持多模态,用户的图片、文档、视频等这些文件获取途径比以前更加直接和方便了,我感觉通过文件分析一个用户会更加精准,之前的方式会简单的分析一个用户的兴趣和爱好,但是更深一点的就不好挖掘了,例如真实的职业、日常生活的场景等等更加具象化的标签,例如通过文件大概率可以精准的推断出职业,照片和视频可以分析用户的生活场景以及根据日常视频和照片中的物品判断这个用户的消费偏好和消费等级等等,可以分析的内容太多了。
TimePPT
194 天前
@xiaohupro 从业者表示,根本不用这么麻烦,几个大厂通过非 LLM 做的用户画像模型,精准度在 90%以上。当年我们在全国随机抽几百个用户找人做了用户调研访谈,结果中年龄、性别、职业、泛爱好这种纬度,都准得一批。
TimePPT
194 天前
@xiaohupro 另外,多模分析也不是今天才有的,抽帧截图做实体识别,七八年前业内就开始做了,从搜索推荐到内容审核现在广泛应用。只是现在这波让这些技术更多暴露在了非从业者眼前罢了。
xiaohupro
194 天前
@TimePPT 感谢普及,确实以前我从事的开发中没有真么深的挖掘过用户
AndrewAdam
194 天前
ds 私有化部署或许能解?
TimePPT
194 天前
@xiaohupro 不用客气,也不是啥普及,只是感觉最近拿着大模型锤子找钉子的人越来越多了😂

另外补充下,我第一条想表达其实是,虽然大模型能获取到更多用户主动发送的信息,但其实,这种挖掘并没有比传统方法高到哪里去。
主要原因也还在:
1. 和 LLM 对话的信息量级远少于在线推荐系统的反馈,也就是说,这类特征更加稀疏——从使用频次、时长上来说都是这样。
2. 非结构化数据挖掘整理到结构化,这个成本比直接的结构化数据要高。
3. 对普通用户来说,张口表达把问题问清楚,把 context 讲清楚,这个要求远高于让他们去点/划表达喜恶——咱们冷静想想,搜索引擎出现二十年了,真正善用搜索的人有多少?简单几个 Keyword 都数不清楚的普通人,有几个能明白现在 LLM 的那些 Prompt 技巧?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1114238

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX