提个问题,百度网盘怎么检查违规信息的,今天我发现 rar 包都能检测到违规信息,这个是怎么做的?

2018-07-20 00:18:50 +08:00
 luosuosile

我想的是。

先是提取关键字,然后根据关键字定位。

以前看的文章,.avi 文件,可以靠音频文件来定位,毕竟都有一定相似性嘛。

那比如纳粹图表,血腥图片的又怎么办呢?

现在我发现压缩包的能找到了,

百度难道真的给你解压缩一遍了?

最后想到的问题是,这些能靠机器学习解决吗?先给他找大量样本,然后让他不断学习是吗?

那就是有人人工给他找大量样本,然后让一些人,给他清洗数据,最后再把干净合理的数据拿来用是吗?

24756 次点击
所在节点    程序员
53 条回复
kokutou
2018-07-20 08:49:44 +08:00
rar 加密码,然后勾上加密文件名就行了。。。。
annielong
2018-07-20 09:23:13 +08:00
rar 加密码,加密文件名,最好再加一个任意的随机文件,以免压缩包已存在
imdong
2018-07-20 09:30:48 +08:00
文件名检测,头信息特征检测。
比如一个压缩包,检查压缩包特征是否检测过,检查文件名是否有关键词。
获取压缩包文件列表,检查压缩包内文件名是否有关键词。
获取压缩包内文件 CRC (类)是否在黑名单。
最不济,尝试读取压缩包内每个文件的头信息(前一段)和现有文件对比。
还要严格,那就?所有文件解压出来,图片视频走 AI 识别?
woodvillage
2018-07-20 09:36:15 +08:00
你不是一个人
RyougiShiki
2018-07-20 09:45:59 +08:00
我遇到的情况是 七牛上传.avi 会失败,.rar 就没事。
dalieba
2018-07-20 11:31:43 +08:00
那就上传一份加密的 RAR 试试看吧。
workspace
2018-07-20 12:23:51 +08:00
tar tf 只看,不解压
nikolai
2018-07-20 12:40:45 +08:00
有人在线解压过,文件 md5 被认证了
metorm
2018-07-20 12:43:05 +08:00
如果是大路货压缩文件,直接 md5 匹配上就可以了
t6attack
2018-07-20 13:10:14 +08:00
文件名关键词+文件指纹。别的没了。根本没有什么图像识别、语音识别、机器学习 乱七八糟这些。

假如有个有个文件叫 v2ex-001.avi ,被 1 万个用户离线到自己网盘里。那么这个文件在服务端实际是 1 个,而不是 1 万个。这个文件被判定为 A 片,那么 1 万个用户点开全部变成“温馨提示”。

一份文件,被多少个网盘保存。服务端那边看的一清二楚。人工审查,只针排名靠前的那些文件就够了。
至于只被一个网盘保存的文件,没人查你。也查不过来。

你把 v2ex-001.avi 截掉 1 秒,文件指纹就变了,然后再上传。就可以正常下载、观看。这是你的私密文件,全球仅此一份。不会被检查。但如果你分享出去,被很多人下到自己网盘里,就有可能变成“温馨提示”。
图片也是一个道理。一张广泛传播的裸照,你用 win 绘图里的铅笔,在角落里点个点,再保存。它就是另一个文件了,全球只此一份。传上去以后,正常浏览、正常下载。
luosuosile
2018-07-20 13:19:56 +08:00
@t6attack 学习了,感谢
JamesR
2018-07-20 13:55:35 +08:00
有纱布在线解压了,就这么简单。
KevZhi
2018-07-20 13:56:07 +08:00
@t6attack
BT 下载的 AVI 格式,转码重新压制成 h264 的 mp4 并自定了码率,改名并去除敏感关键字,非光速上传后,未分享的情况下秒封

甚至磁力下载的黄油 ISO 镜像都被封过


显然此过程 AI 图像音频识别都不一定用得到,除去对比文件头,文件名,hash,百度云更可能直接截取某一帧(例如第五秒第 20 帧)图像进行比对(以图搜图)黑名单数据库。


另外别忘了行为检测,正常人看正常视频应该不会一直快进吧。当这个文件被大量分享,大多数人都不断的快进的时候,这个视频可能已经进入枪毙名单了

当然目前 AI 的力量也十分强大,鉴黄服务也非常成熟了,但是还存在一定误封的情况,但是这都是唐马儒们的有力工具。

也别忘了人的力量,戒色吧老哥的小广告都能贴到大学教学楼卫生间里,撸完举报的大有人在。还有一些民间组织、家长组织也在做这些事情。

百度内部当然也培养了一堆唐马儒,他们每天做的就是坐在大屏幕前,大屏幕就像监控中心一样,轮流不断播放着每个用户网盘里被大量分享的文件,当他们发现一个,点点鼠标那个文件就八秒了。
Tlin
2018-07-20 13:58:05 +08:00
@t6attack 老哥也是深有体会啊。之前我也是这样,跟别人同样的文件实际在云端只有一个的,云端删了大家的都没了(不知道秒传是不是这个原理:限读取你的文件里面的一些内容数据结构等等,在云端进行比对,如果有就把云端的给你,再把你的文件名赋值上去)
flyoungstudio
2018-07-20 14:11:12 +08:00
PGP Desktop,你值得拥有
go
2018-07-20 14:14:28 +08:00
@t6attack #30 牛啊 一直以为 AI+人工智能判断 视频图像分析 自动替换成温馨提示
按照你的说法 也就是检查热门文件 。。
go
2018-07-20 14:16:21 +08:00
@KevZhi #33 不断快进这段 笑了
hu5ky
2018-07-20 17:23:27 +08:00
应该是对比文件 MD5 值这类技术,你一个压缩包没有加密码,然后有人在线解压,导致被服务器检测到,然后查看以后对这个文件的 MD5 值,做封禁处理,然后就是你看到的封禁信息。
yjd
2018-07-20 17:27:04 +08:00
你加个中文密码。23333
f2ck
2018-07-20 17:30:36 +08:00
压缩 加密一哈 就可以了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/472513

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX