针对视频文件重去有哪些方案?

2015-10-15 11:19:55 +08:00
 kenshinhu

针对视频文件重去有哪些方案?

造福人类的事情的问题来了
大家没有有苦恼于日渐增多的视频文件,怎样可以有一个有效的方法查找出相同的视频文件?
MD5?
还是通过人肉?

说说你们的想法

4714 次点击
所在节点    问与答
18 条回复
MicrosoftAzure
2015-10-15 11:51:26 +08:00
Everything 用通配符搜索视频文件后根据文件大小排序并手动删除重复项。
ck65
2015-10-15 12:04:16 +08:00
imn1
2015-10-15 12:12:33 +08:00
严谨: hash
极简:字节
一般:字节+mediainfo
折中:字节+mediainfo+随机抽取相同位置的字节片段进行 hash
huijiewei
2015-10-15 12:14:19 +08:00
第一步先用 MD5 去除完全重复的文件, MD5 对文件的识别还是很保险的

第二步就可以用高大上的智能识别了。对准确率不放心的话,可以人工审核一下
my101du
2015-10-15 12:16:06 +08:00
同需要。

例如 番号-号码-1080.mkv 和 [一堆日语].rmbp 可能是相同内容的视频文件(或者是截取的部分相同)

用大小、名称都是查不出来的……

我觉得最佳的解决办法是大家约定固定使用一组压缩参数,使得同一个文件压缩出来,体积都是一样的,可以通过体积来判断。还有就是截取的话,文件名要把原来的视频名保留……

是不是要求太高了
csx163
2015-10-15 12:28:09 +08:00
体积都是 5M 左右, webm 格式的怎么破
abelyao
2015-10-15 12:37:52 +08:00
@imn1
@huijiewei
感觉用 hash 是不准确的,字节也一样,就像 @my101du 说的同一部片有不同的压缩版本…
感觉应该是抽取几个时间点的截图,然后缩小到一定程度之后对比相似度(类似识别相同图片的原理)整个视频匹配下来相似度达到多少以上就算同一部视频…
不过有一些发布者会在片头加广告,导致时间点对不上… 无奈…
imn1
2015-10-15 13:02:51 +08:00
@abelyao
呃,这个我只理解了文件去重,没理解为内容去重,至少 LZ 没说清

内容去重这个真没“智能”办法,即使截图,也很难
例如一个版本前面带有几秒版权,另一个没有,两者就会存在时间差
又如一个版本上了滤镜 A ,另一个用了滤镜 B ,两者即使时间同步,截图的差异也巨大

我没什么这个问题,因为
1.事前有版本选择,不清楚版本的忽略,避免浪费时间,除非稀有视频
2.时候有归档习惯,所以归档时基本也人肉去重了,因为无论 hash 或者图片比较,花费时间和 CPU 还不如我快进一遍简单

非个人使用,例如服务器,那就是另话
但这个又有另一个逻辑:不同版本就是不同劳动(或不同权利持有人),能随意清理吗?
imn1
2015-10-15 13:05:02 +08:00
@imn1
鉴于另一个帖子的争论,避免别人认为我态度有问题
楼上 “ 2.时候……” 应为 “ 2.事后……”
kenshinhu
2015-10-15 13:08:32 +08:00
@huijiewei 尝试过 md5 方式,但针对 web video 时候这个就不管用了
kenshinhu
2015-10-15 13:09:36 +08:00
@my101du 番号这个标准仅对靠谱的文件名有用....
kenshinhu
2015-10-15 13:11:13 +08:00
@imn1 这个针对家用环境吧
eirk2004
2015-10-15 21:14:16 +08:00
这样行不行? FFmpeg 抽取关键帧,然后把图像扔给 google 、 baidu 去提取关键词(并对关键词排序),供用户最终判定;如果完全无法匹配,尝试从关键帧中进行人脸识别,然后截取画面、重复前面一步。

精确的文件内容去重,感觉应用范围窄、实现成本高
kenshinhu
2015-10-16 10:05:12 +08:00
@eirk2004 这可能是其中之一个方案,貌似这个方案有在腾信的监黄里用到
cz5424
2018-09-29 16:05:49 +08:00
楼主采用了什么方案了?

FFmpeg 抽取关键帧好像是一个比较好的方法
提取多个关键帧,视频去重就降级到了图片去重,使用图片去重的方法就可以搞了

目前我也在找更好的方案
jiqiren007
2019-10-24 13:44:20 +08:00
@cz5424 找到啥更好的方案了吗?
cz5424
2019-10-24 16:27:21 +08:00
@jiqiren007 没有继续跟下去了,目前问题不是很搭
wktop
30 天前
@jiqiren007 有继续跟进吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/228202

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX