首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
拉钩
V2EX  ›  程序员

提个问题,百度网盘怎么检查违规信息的,今天我发现 rar 包都能检测到违规信息,这个是怎么做的?

  •  
  •   luosuosile · 148 天前 · 6866 次点击
    这是一个创建于 148 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我想的是。

    先是提取关键字,然后根据关键字定位。

    以前看的文章,.avi 文件,可以靠音频文件来定位,毕竟都有一定相似性嘛。

    那比如纳粹图表,血腥图片的又怎么办呢?

    现在我发现压缩包的能找到了,

    百度难道真的给你解压缩一遍了?

    最后想到的问题是,这些能靠机器学习解决吗?先给他找大量样本,然后让他不断学习是吗?

    那就是有人人工给他找大量样本,然后让一些人,给他清洗数据,最后再把干净合理的数据拿来用是吗?

    53 回复  |  直到 2018-07-22 09:32:38 +08:00
        1
    dewi   148 天前 via iPhone
    这就好比 QQ 邮箱里的压缩文件预览功能一样,从技术上一点都不难实现,本质上就是后台云端解压而已,不会涉及重新压缩的,因为重新压缩 md5 肯定会改变。目前防检测的唯一方法就是加密。
        2
    luosuosile   148 天前
    @dewi 嗯,对哦即使不做解压缩,好像也能浏览目录
        3
    flynaj   148 天前 via Android
    不需要全部解压,只需要解压需要的部分,类似于 winmount 这个软件
        4
    luosuosile   148 天前
    @flynaj thanks 学习了
        5
    easylee   148 天前 via Android
    对于问题不大清楚,但是提示楼主,上传压缩包最好进行加密。
        6
    Love4Taylor   148 天前 via Android
    加密并且对包内文件名加密
        7
    someonetwo   148 天前
    如果压缩包加密的话不知道还能不能检测出来
        8
    aaax7676   148 天前 via Android
    估计是有人在线解压了
        9
    msg7086   148 天前
    解压又没技术难度……
    度盘最露骨的过滤方法是看文件名关键词。比如广场这个词就是敏感词,文件根本分享不出来。
        10
    zzsx1937   147 天前
    双层加密压缩 内层最好改文件后缀
        11
    zhangpeter   147 天前
    @msg7086 为什么广场是敏感词?
        12
    loukky   147 天前 via Android
    @zhangpeter T A M
        13
    Telegram   147 天前 via iPhone
    @zhangpeter #11 天安门广场,64 事件呗
        14
    leafleave   147 天前 via iPhone
    文件名和已知问题文件的 md5 类数字指纹,这两种都不需要解压文件
        15
    torbrowserbridge   147 天前 via Android
    666 天朝关键字真多
        16
    nieyujiang   147 天前 via iPhone
    压缩并且加密,很多开车群都是这么搞得。
        17
    kkeybbs   147 天前 via iPhone
    最低成本的,如果文件是广泛传播的,文件本身的 hash 拉到黑名单。

    一般成本,读 rar 里索引列表部分,根据文件名列表判断,rar 的索引里还有文件的 crc32,也可以作为广泛传播内容的判断。我猜最可能 crc32 作为 hash 判断依据。

    高成本的,尤其是 rar 本身文件名有点敏感的,可以重点对待,解压扫描里面的内容,不过不现实。
        18
    jmercer   147 天前
    在这里说 64 会不会被封[doge]
        19
    badcode   147 天前 via iPhone
    压缩文件,都把加密文件名勾上……
        20
    a566   147 天前 via Android
    7z 好像可以逃过
        21
    kokutou   147 天前 via Android
    rar 加密码,然后勾上加密文件名就行了。。。。
        22
    annielong   147 天前
    rar 加密码,加密文件名,最好再加一个任意的随机文件,以免压缩包已存在
        23
    imdong   147 天前
    文件名检测,头信息特征检测。
    比如一个压缩包,检查压缩包特征是否检测过,检查文件名是否有关键词。
    获取压缩包文件列表,检查压缩包内文件名是否有关键词。
    获取压缩包内文件 CRC (类)是否在黑名单。
    最不济,尝试读取压缩包内每个文件的头信息(前一段)和现有文件对比。
    还要严格,那就?所有文件解压出来,图片视频走 AI 识别?
        24
    woodvillage   147 天前
    你不是一个人
        25
    RyougiShiki   147 天前
    我遇到的情况是 七牛上传.avi 会失败,.rar 就没事。
        26
    dalieba   147 天前 via Android
    那就上传一份加密的 RAR 试试看吧。
        27
    workspace   147 天前
    tar tf 只看,不解压
        28
    nikolai   147 天前
    有人在线解压过,文件 md5 被认证了
        29
    metorm   147 天前 via Android
    如果是大路货压缩文件,直接 md5 匹配上就可以了
        30
    t6attack   147 天前   ♥ 1
    文件名关键词+文件指纹。别的没了。根本没有什么图像识别、语音识别、机器学习 乱七八糟这些。

    假如有个有个文件叫 v2ex-001.avi ,被 1 万个用户离线到自己网盘里。那么这个文件在服务端实际是 1 个,而不是 1 万个。这个文件被判定为 A 片,那么 1 万个用户点开全部变成“温馨提示”。

    一份文件,被多少个网盘保存。服务端那边看的一清二楚。人工审查,只针排名靠前的那些文件就够了。
    至于只被一个网盘保存的文件,没人查你。也查不过来。

    你把 v2ex-001.avi 截掉 1 秒,文件指纹就变了,然后再上传。就可以正常下载、观看。这是你的私密文件,全球仅此一份。不会被检查。但如果你分享出去,被很多人下到自己网盘里,就有可能变成“温馨提示”。
    图片也是一个道理。一张广泛传播的裸照,你用 win 绘图里的铅笔,在角落里点个点,再保存。它就是另一个文件了,全球只此一份。传上去以后,正常浏览、正常下载。
        31
    luosuosile   147 天前
    @t6attack 学习了,感谢
        32
    JamesR   147 天前 via Android
    有纱布在线解压了,就这么简单。
        33
    KevZhi   147 天前 via iPhone   ♥ 1
    @t6attack
    BT 下载的 AVI 格式,转码重新压制成 h264 的 mp4 并自定了码率,改名并去除敏感关键字,非光速上传后,未分享的情况下秒封

    甚至磁力下载的黄油 ISO 镜像都被封过


    显然此过程 AI 图像音频识别都不一定用得到,除去对比文件头,文件名,hash,百度云更可能直接截取某一帧(例如第五秒第 20 帧)图像进行比对(以图搜图)黑名单数据库。


    另外别忘了行为检测,正常人看正常视频应该不会一直快进吧。当这个文件被大量分享,大多数人都不断的快进的时候,这个视频可能已经进入枪毙名单了

    当然目前 AI 的力量也十分强大,鉴黄服务也非常成熟了,但是还存在一定误封的情况,但是这都是唐马儒们的有力工具。

    也别忘了人的力量,戒色吧老哥的小广告都能贴到大学教学楼卫生间里,撸完举报的大有人在。还有一些民间组织、家长组织也在做这些事情。

    百度内部当然也培养了一堆唐马儒,他们每天做的就是坐在大屏幕前,大屏幕就像监控中心一样,轮流不断播放着每个用户网盘里被大量分享的文件,当他们发现一个,点点鼠标那个文件就八秒了。
        34
    Tlin   147 天前
    @t6attack 老哥也是深有体会啊。之前我也是这样,跟别人同样的文件实际在云端只有一个的,云端删了大家的都没了(不知道秒传是不是这个原理:限读取你的文件里面的一些内容数据结构等等,在云端进行比对,如果有就把云端的给你,再把你的文件名赋值上去)
        35
    flyoungstudio   147 天前
    PGP Desktop,你值得拥有
        36
    go   147 天前
    @t6attack #30 牛啊 一直以为 AI+人工智能判断 视频图像分析 自动替换成温馨提示
    按照你的说法 也就是检查热门文件 。。
        37
    go   147 天前
    @KevZhi #33 不断快进这段 笑了
        38
    hu5ky   147 天前
    应该是对比文件 MD5 值这类技术,你一个压缩包没有加密码,然后有人在线解压,导致被服务器检测到,然后查看以后对这个文件的 MD5 值,做封禁处理,然后就是你看到的封禁信息。
        39
    yjd   147 天前
    你加个中文密码。23333
        40
    f2ck   147 天前
    压缩 加密一哈 就可以了
        41
    Raymon111111   147 天前
    加密啊
        42
    psychoo   147 天前
    @KevZhi 还有在同一时刻附近停止播放并关闭网页 hhhhh
        43
    crab   147 天前
    @KevZhi 老哥有经验。快进撸点哈哈!
        44
    mmdsun   147 天前 via Android
    你压缩包设置密码就行。
        45
    akira   147 天前
    @go 在可见的未来,你以为的这些技术也会成为现实
        46
    LudwigWS   147 天前
    向老司机们学习
        47
    EthanZhuXE2V   147 天前 via Android
    在线解压就会被封
        48
    wsc449   147 天前
    向老司机们学习
        49
    pWHx3x96   147 天前
    @psychoo pornhub 那个热力图的思路好像也是这样 hhh
        50
    JerryCha   147 天前
    大概就是有会员云解压了吧,然后就上记录了。记得以前有在线预览 avi 过了不久就 8s 的
        51
    arabshia   146 天前
    向老司机们学习
        52
    winglight2016   146 天前
    @torbrowserbridge 很多啦,像 89 这么常见的词就是关键字,以前看小说,八九玄功,八九不离十都出不来
        53
    sungkyu   145 天前
    楼主,Winsw1.9.exe 那两个链接都失效了
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   898 人在线   最高记录 4019   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.1 · 22ms · UTC 19:16 · PVG 03:16 · LAX 11:16 · JFK 14:16
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1