提个问题,百度网盘怎么检查违规信息的,今天我发现 rar 包都能检测到违规信息,这个是怎么做的?

2018-07-20 00:18:50 +08:00
 luosuosile

我想的是。

先是提取关键字,然后根据关键字定位。

以前看的文章,.avi 文件,可以靠音频文件来定位,毕竟都有一定相似性嘛。

那比如纳粹图表,血腥图片的又怎么办呢?

现在我发现压缩包的能找到了,

百度难道真的给你解压缩一遍了?

最后想到的问题是,这些能靠机器学习解决吗?先给他找大量样本,然后让他不断学习是吗?

那就是有人人工给他找大量样本,然后让一些人,给他清洗数据,最后再把干净合理的数据拿来用是吗?

24737 次点击
所在节点    程序员
53 条回复
dewi
2018-07-20 00:25:15 +08:00
这就好比 QQ 邮箱里的压缩文件预览功能一样,从技术上一点都不难实现,本质上就是后台云端解压而已,不会涉及重新压缩的,因为重新压缩 md5 肯定会改变。目前防检测的唯一方法就是加密。
luosuosile
2018-07-20 00:26:30 +08:00
@dewi 嗯,对哦即使不做解压缩,好像也能浏览目录
flynaj
2018-07-20 00:30:49 +08:00
不需要全部解压,只需要解压需要的部分,类似于 winmount 这个软件
luosuosile
2018-07-20 00:36:53 +08:00
@flynaj thanks 学习了
easylee
2018-07-20 00:55:32 +08:00
对于问题不大清楚,但是提示楼主,上传压缩包最好进行加密。
Love4Taylor
2018-07-20 01:11:37 +08:00
加密并且对包内文件名加密
someonetwo
2018-07-20 01:16:45 +08:00
如果压缩包加密的话不知道还能不能检测出来
aaax7676
2018-07-20 01:18:05 +08:00
估计是有人在线解压了
msg7086
2018-07-20 01:21:44 +08:00
解压又没技术难度……
度盘最露骨的过滤方法是看文件名关键词。比如广场这个词就是敏感词,文件根本分享不出来。
zzsx1937
2018-07-20 06:02:56 +08:00
双层加密压缩 内层最好改文件后缀
zhangpeter
2018-07-20 07:17:45 +08:00
@msg7086 为什么广场是敏感词?
loukky
2018-07-20 07:21:09 +08:00
@zhangpeter T A M
Telegram
2018-07-20 08:00:02 +08:00
@zhangpeter #11 天安门广场,64 事件呗
leafleave
2018-07-20 08:01:53 +08:00
文件名和已知问题文件的 md5 类数字指纹,这两种都不需要解压文件
torbrowserbridge
2018-07-20 08:05:34 +08:00
666 天朝关键字真多
nieyujiang
2018-07-20 08:07:50 +08:00
压缩并且加密,很多开车群都是这么搞得。
kkeybbs
2018-07-20 08:08:43 +08:00
最低成本的,如果文件是广泛传播的,文件本身的 hash 拉到黑名单。

一般成本,读 rar 里索引列表部分,根据文件名列表判断,rar 的索引里还有文件的 crc32,也可以作为广泛传播内容的判断。我猜最可能 crc32 作为 hash 判断依据。

高成本的,尤其是 rar 本身文件名有点敏感的,可以重点对待,解压扫描里面的内容,不过不现实。
jmercer
2018-07-20 08:21:01 +08:00
在这里说 64 会不会被封[doge]
badcode
2018-07-20 08:25:59 +08:00
压缩文件,都把加密文件名勾上……
a566
2018-07-20 08:42:58 +08:00
7z 好像可以逃过

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/472513

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX