V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
lixuda
V2EX  ›  程序员

新手问问大佬们, AI IDE 或 大模型数据安全问题

  •  
  •   lixuda · 11 小时 38 分钟前 · 1536 次点击

    虽然很多他们写的隐私告知 代码会参与训练或不训练,那么完整代码泄露风险有多大?有这个被爆出来的案例吗?

    第 1 条附言  ·  9 小时 38 分钟前
    如果拿去训练代码,那我一个大项目的完代码是完完整整会被上传?还是使用的单文件代码被上传,还是说部分代码片段被其他使用?
    如果大模型使用数据后,是作为模型原数据,会再次加工后使用,还是直接原始代码去匹配模型给其他人调用?
    可能我说的比较模糊,就是说我的私有代码(大面积)会有可能一模一样被其他人使用到?
    29 条回复    2025-12-17 16:37:23 +08:00
    NxxRngjnbgj
        1
    NxxRngjnbgj  
       11 小时 15 分钟前   ❤️ 6
    v 站用户向来以隐私强著称,但唯独在 ai 写代码这事情上,好像他们根本不在乎隐私,公司的代码随手就给了,不过也可以理解,又不是自己的东西,泄露了关我屁事,但是自己项目,他们也这样,另外最近有一个词叫 vibe coding ,可以说最近论坛非常 vibe 了,各种流水账产品,短时间内就给你写出来,然后分享到论坛,用他们的说法叫广撒网,看看有没有能火的,火了再考虑后续的运营,至于隐私是什么,那不重要。
    =============================================
    回到你的问题,你都把代码发人家了,你就剩一件事情可以考虑了,那就是因此带来的后果你能不能承受就行,想那么多干嘛。
    =============================================
    另外,curd 的代码,有很大价值吗,什么时候 ai 才能帮我写外挂啊
    kneo
        2
    kneo  
       11 小时 1 分钟前 via Android
    风险很大,但是被你发现的概率不大。无所谓的。
    cakera1ter
        3
    cakera1ter  
       10 小时 56 分钟前
    用别怕,怕别用,公司领导都不在乎,你管泄漏不泄漏
    corcre
        4
    corcre  
       10 小时 46 分钟前
    我一直在想有没有一种可能,公司不提供 AI 工具,但是打工人自己用,等领导想解雇你的时候只要拿到你使用 AI 的证据就能指控你违反了保密协议不需要给赔偿就能解雇员工😟
    M1234
        5
    M1234  
       10 小时 40 分钟前 via iPhone
    同有疑问,前两天看了 qoder 的隐私协议,免费版本明确写了会使用上下文代码做训练,就有点不敢在公司项目中用了。印象中 trae 也会,估计要隐私就要付费版本。
    Vaspike
        6
    Vaspike  
       10 小时 31 分钟前
    大多数项目的代码的价值要结合业务才能体现的, 或者说, 一个项目代码的保密性如果真的已达到断网或审查的程度, 公司 99%会规定项目内 AI 编程的红线或者工作电脑上 IT 管控

    总结下我的观点就是,很多项目只拿到代码并没什么关系的
    uNoBrain
        7
    uNoBrain  
       10 小时 29 分钟前
    安全排名:
    1. 自部署 AI
    2. AI 大厂的开发工具如 codex 、cc 、antigravity 等
    3. 使用量较大的开发工具/AI 大模型,如 cursor ,cc+glm ,cc+deepseek 等
    4. 一般大厂的开发工具或者是出名的中转站,如 trae ,kiro ,qoder ,openrouter
    5. 野鸡中转站
    zzxCNCZ
        8
    zzxCNCZ  
       10 小时 27 分钟前
    cursor 这种默认配置了忽略环境文件,但目前通过调用 cli 工具也可以查看内容
    ssssiiiirren
        9
    ssssiiiirren  
       10 小时 26 分钟前
    业务代码真的有什么价值吗?有价值的是业务本身。
    YanSeven
        10
    YanSeven  
       10 小时 12 分钟前
    有些朋友还是逻辑跳跃了。

    你泄露的代码有没有价值是一回事儿,AI 会不会泄露是另外一回事儿。

    我的主观判断就是,所有的 AI 都会泄露你的代码,这里的泄露是指用你的对话做训练。从国外三巨头到国内三巨头,我都如此坚信。
    ggzhyipeng
        11
    ggzhyipeng  
       10 小时 3 分钟前
    代码有没有价值是一回事儿,会不会对你进行追责是另一回事
    charles0
        12
    charles0  
       9 小时 49 分钟前 via iPhone
    你就当作会泄露吧,不想泄露数据的话可以本地部署(注:可以在云服务器上本地部署)
    charles0
        13
    charles0  
       9 小时 48 分钟前 via iPhone
    @NxxRngjnbgj 因为很多人并不把代码当作隐私,真正的隐私是日常消费记录、购买倾向、照片和文件、输入法词库等等
    hello267015
        14
    hello267015  
       9 小时 26 分钟前
    泄露代码 和 将代码用于模型训练是两回事

    ai 收集到的代码都是碎片化的,可能是几行,几个类文件,就算极端情况下要将整个项目库作为 context 发给 ai ,但到了 ai 模型算法内部,这些代码都转成了一些毫无业务意义的 tokens ,从原理上来说 ai 就没有完整泄露代码的机制....

    但是将代码用于模型训练几乎是每个 CodeAgent 都会做的事情吧,你会在意 AI 借鉴、学习你的代码么,在意的话就不建议用 AI , 我是不 care...
    sn0wdr1am
        15
    sn0wdr1am  
       8 小时 57 分钟前
    会有安全问题。

    如果公司有自己规定的,自己部署的 AI ,就用这个。
    如果公司有规定不能乱用 AI ,就不要用外面的 AI 。



    自己的代码,无所谓用什么 AI 。
    公司的代码,你不要任性,要尊重公司规定。
    changwei
        16
    changwei  
       8 小时 43 分钟前
    我也好奇过这个问题

    但是在使用 Copilot 时有看到他们官网说明: https://docs.github.com/en/copilot/reference/ai-models/model-hosting#openai-models

    比如 OpenAI 有写:OpenAI makes the following data commitment: We [OpenAI] *do not train models on customer business data*. Data processing follows OpenAI's enterprise privacy comments.

    他说不会用客户数据来 [训练模型] ,但是这句话的含义似乎并不代表他们不会收集数据来做其他用途?如果你是大公司的话,可以请教你们公司的律师和法务看看?!
    94
        17
    94  
       8 小时 23 分钟前
    @NxxRngjnbgj #1 ,这是数据安全,不是算是隐私问题。主要是使用 AI Coding 造成的合规隐患。

    ----
    作为回答就是会,自己很早期使用 Github Coiplot 的时候就完整补全出来了一段 juejin.cn 的文章链接出来……
    gongym
        18
    gongym  
       7 小时 54 分钟前
    @94 所谓的 ** juejin.cn 的文章链接 ** 应该是公开数据吧,不符合 OP 提到的场景
    94
        19
    94  
       7 小时 7 分钟前
    @gongym #18 ,具体就不清楚了,完整 URL 复制出来又从 github 上面搜不到,就很奇怪。
    在写具体业务函数的 JSDoc 的时候突然补全出来一大堆文案里面就带了链接,我同事都快笑死了……
    connor123
        20
    connor123  
       6 小时 57 分钟前
    一帮写业务代码的,为什么觉得业务代码是机密啊?
    你做的项目是火箭回收吗?

    在我看来,写业务代码的不需要操心是否泄密,把业务实现就行了。
    hbprotoss
        21
    hbprotoss  
       6 小时 49 分钟前
    @connor123 火箭回收也不怕代码泄露,换个火箭就跑不了😂
    jjwjiang
        22
    jjwjiang  
       6 小时 28 分钟前
    @94 从原理上说,它只是模仿了 juejin 的链接而已…
    94
        23
    94  
       6 小时 18 分钟前
    @jjwjiang #22 ,从 LLM 原理的理解来说是这样的。
    但是这个生成的注释块很稳定。当时尝试了几次生成的都是同一个内容。按道理上下文变了生成的应该是不一样的。即使高度类似,生成的“假 URL”也不可能完全一样。
    94
        24
    94  
       6 小时 12 分钟前
    @connor123 #20 ,因为企业裁员的时候可能利用 AI 辅助编程来作为“泄密”的理由来进行无赔偿辞退。如果企业没有明确落实到文字形式的允许信息就会有合规问题。

    但这个理解是有偏差的。很多像 OP 这样的没有意识到,单纯只觉得代码才是重要的,但关键点并不是在代码上,而是在行为上。
    connor123
        25
    connor123  
       6 小时 2 分钟前
    @94 #24 有没有可能是公司就是想裁你,故意找个理由?当决定裁你的那一刻,你连拉屎超过五分钟都能作为理由,不是吗?
    94
        26
    94  
       5 小时 54 分钟前
    @connor123 #25 ,裁员是有补偿的,而严重违规是没有补偿的。
    lixuda
        27
    lixuda  
    OP
       5 小时 46 分钟前
    @94 主要先讨论数据安全问题,至于有没有价值另说了。
    94
        28
    94  
       4 小时 27 分钟前   ❤️ 1
    @lixuda #27 ,需要看你使用的 AI 工具的具体隐私条款,但是一般都会有一个开关,我拿 Github Copilot 来举例。

    > 如果拿去训练代码,那我一个大项目的完代码是完完整整会被上传?还是使用的单文件代码被上传,还是说部分代码片段被其他使用?
    1. 直接的代码仓库形式的泄露。明确不会,除非你是在 Github 中的公开仓库;
    2. Coding 中的自动补全和代码块生成以及对话中的上下文和提示词。会,看你怎么提供的上下文,以及是否勾选了允许改进的开关。https://copilot.github.trust.page/faq

    > 如果大模型使用数据后,是作为模型原数据,会再次加工后使用,还是直接原始代码去匹配模型给其他人调用?
    1. 加工后的数据在匿名化之后用于模型训练,但是没有提及如何使用 https://github.com/customer-terms/github-data-protection-agreement
    基于历史新闻,直接以原始代码的可能性是有的,但是会有一个 [suggestions matching public code]( https://docs.github.com/en/copilot/how-tos/manage-your-account/manage-policies#enabling-or-disabling-suggestions-matching-public-code) 的场景,所以并不确定是哪一种形式提供的完整代码块。
    wahaha3010
        29
    wahaha3010  
       3 小时 35 分钟前
    @NxxRngjnbgj 因为这根本就不是问题,现在随便一个中大厂互联网公司都会采购 copilot 或者 cursor 这种外部 ai 工具给员工用的。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3059 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 73ms · UTC 12:12 · PVG 20:12 · LAX 04:12 · JFK 07:12
    ♥ Do have faith in what you're doing.