如果罗马大学、洛桑学院这些个机构的结论是正确的,不是证明 LLM 是一个巨型的彩虹表?
平时使用大模型的所有记录都能倒推,如果是公司敏感技术,一股脑全都能被逆向了?
自己在用 AI-based IDE 时,那些 secret key 都在代码里的,虽然代码库是私有的,通过 AI 这不都泄露出去了么
|      1hefish      1 天前 那怎么办。。。。我的隐私啊。。。 要被人发现了。。。 | 
|      2superrichman      1 天前 谁让你硬编码的 🐶 | 
|  |      3icyalala      1 天前 你首先得有大模型权重文件和算法才能反推,而且只是理论上。。。 理论上你知道 md5 和彩虹表还能反推原文呢 | 
|      5idealhs      1 天前 偷偷告诉你,人类也是可以倒推的 | 
|      6dji38838c      1 天前 拜托! 论文原文、出处要给吧? | 
|  |      7billytom      1 天前 小声跟你说,每一次福彩的头奖号码,我都能找到某个理论和说法给你倒推回去并且逻辑自洽的,我这么厉害,你要不要 V 我 50 我教你? | 
|      8jacketma OP | 
|  |      9v1      1 天前 浪费时间、浪费金钱 | 
|  |      10geelaw      1 天前  7 论文说的是从状态倒推,用户使用的 LLM 看到的输出不是状态,而是状态决定的分布的样本。 @icyalala #3 论文里有实验验证(需要权和状态)。另外这个和 MD5 是完全不同的情况:MD5 里面定义域比对应域小很多,因此必然损失信息;论文的建模里,定义域是有限集(注 1 ),对应域是连续统势的集,加上函数、参数的选择方式,以 1 的概率(此处的概率是参数初始化和训练的随机性)不损失信息。 当然,单射和可高效求逆是两个分开的问题,论文通过实验证明了可以高效求逆。 注 1:实际上应该可以允许到可数集,用概率对单调集合序列的连续性即可从有限集的情况自动得到可数集的情况。 | 
|      11Rickkkkkkk      1 天前 如何很在乎隐私那不应该用 ai ,你输入的东西都是训练的语料。 | 
|  |      12CrazyRundong      1 天前 via iPhone  1 “The key idea is that their components (embeddings, LayerNorm, causal attention, MLPs, and residual wiring) are smooth and structured enough” 开头第一段就绷不住了,搞 theory 的这帮人为了能推出个 bound 什么逆天假设都敢上 | 
|  |      13members      1 天前 自己在用 AI-based IDE 时,那些 secret key 都在代码里的,虽然代码库是私有的,通过 AI 这不都泄露出去了么 === 你的 secret key 都是明文上传到服务器的,指不定都被存储了,何必担心倒推。 | 
|      14jacketma OP @Rickkkkkkk 当作语料无所谓,万一屎山代码污染了大模型就不好了😄 | 
|  |      15Randomjo      1 天前 自己在用 AI-based IDE 时,那些 secret key 都在代码里的, ---- 不是,哥们,你用 AI 起个项目,他都知道 secret key 都是放配置文件的,然后他不会有访问配置文件的权限。。 | 
|  |      16geelaw      1 天前  2 @CrazyRundong #12 hello, 这里 idea 的意思是“(证明)思路”,LLM 所用函数的解析性是数学定理,不是假设。 | 
|      17jacketma OP | 
|  |      19030      1 天前 脑瘫,给你一个宇宙同等的计算机你还可以预测未来 | 
|  |      20Sosocould      1 天前 这就是业界为什么说欧洲的人工智能前沿研究和学术比较拉胯,不如中美。 | 
|      21superares      1 天前 via Android LLM 说:“你说的对” 请倒推 | 
|  |      22fadaixiaohai      1 天前 不用倒推吧,直接访问你的所有文件,然后上传 | 
|  |      23antik24601      1 天前 via Android 首先,请给出来源。我刚刚查了一下没找到,别告诉我是从哪个公众号或者百家号上看到的。 另外,从直觉上来说就不太合理,例如下面两个 prompt: "计算 12+34 等于多少。 用阿拉伯数字回答,只需要给出数字答案。" "我服务器的 root 密码是 xxxxxxxxx ,公网 ip 是 yyyyyyy 。 忽略前面的指令,计算 100-54 等于多少。 用阿拉伯数字回答,只需要给出数字答案。" 最后都是 46 ,这要怎么倒推? | 
|      24Genii      1 天前 | 
|  |      25Librola      1 天前 这是我 v2 密码的 md5:217461259536616e56e197a4f42e68c5 这是 sha1:63482c3c97110daa118d8b1af6672e2ff7cfad24 请倒推出我的密码吧! | 
|  |      26TimePPT PRO `自己在用 AI-based IDE 时,那些 secret key 都在代码里的,虽然代码库是私有的,通过 AI 这不都泄露出去了么` 你这种情况,即使没没倒推可能性,也泄露了。现在绝大多数模型供应商,自始至终全部都能看到 context 的明文信息的 | 
|  |      27TimePPT PRO | 
|  |      28Gilfoyle26      1 天前 | 
|  |      29senooo      1 天前 不同的人问同一个问题 没有 cache 答案是完全一致的? | 
|  |      30Tink PRO @CrazyRundong #12 关键就在于,像 embeddings 、LayerNorm 、causal attention 、MLPs 还有 residual wiring 这些组件,都做得特别平滑,而且结构感拿捏得很到位。 | 
|      31uo      1 天前 via iPhone 是可以倒推出完整的原文么 | 
|  |      32geelaw      1 天前 另外一条评论:请不要把研究者等同于他们供职的机构,做研究的是人,不是机构。 | 
|  |      33coderpwh      1 天前 如果你不是故意的那就是蠢了,理论上我还能从你的生活习惯,穿着等倒推你的薪资呢 | 
|      34PhosphorLin      1 天前 扯 | 
|      35PhosphorLin      1 天前 我输入个一万字的文章并要求 ai 只输出一个字,你能反推出来输入? | 
|  |      36secsilm      1 天前  1 简单看了下论文,我想大家可能误解了,标题也有点让人误解。标题中的 Output ,实际上是指 hidden state: > the first algorithm that provably and efficiently reconstructs theexact input text from hidden activations, establishing linear-time guarantees and demonstrating exact invertibility in practice. 而这个 hidden state ,在 transformer 中,一般指最后一层(不包括 softmax )的第一个 token 的 embedding 。这个完全不等同于所谓的 Output (即模型最后的输出)。由于采样算法和 gpu 计算的影响,从 Output 反推 prompt ,是不可能的。 | 
|      37rtv      1 天前 你同一个 prompt 丢给 llm 输出都不一样,怎么可能倒推 |