关于以图搜图的效率

2018-05-30 13:49:49 +08:00
 90safe

用感知哈希算法写了个计算 hash 值的函数,然后每张图片对应一个 hash 指纹,在上传比对的时候,除了一口气获取所有图片的 hash,然后再挨个每位数进行比对以外,有什么其他方法吗?这样的话,效率好像有点差。毕竟 hash 有 64 位,还要遍历 64 次看看是否相似。

2770 次点击
所在节点    算法
7 条回复
tux
2018-05-30 14:27:16 +08:00
原来看过一个是把任意图片压缩成 64*64 的大小,然后对比每个点像素,差值最小的一般就是最接近的或者一样的
Kagari
2018-05-30 15:10:00 +08:00
https://github.com/soruly/whatanime.ga 类似的项目
那就缩短 hash 咯,没有那么容易冲突的
还是说你数据量太小没用上数据库?
90safe
2018-05-30 16:28:48 +08:00
@Kagari @tux 唔,我的意思是说:如果我有 3 万张图片,那么就有 3 万条指纹信息,我取出 3 万条,然后 for 循环,一条指纹是 64 位,还再需要 for64 次,这样就是 30000 * 64 次循环,上传照片查询一次就得比对 192 万次才行。
Kagari
2018-05-30 18:20:30 +08:00
@90safe 我觉得 3w 条扔到数据库里,然后给定数据输出汉明距离大于 x 的速度不慢啊。要不你转成 2 进制发现不相同的值多于 x 位就跳过咯
dex2jar
2018-05-30 18:22:43 +08:00
那这个和图片没关系吧。。
然后为啥 64 位的 hash 得循环 64 次。。
chenuu
2018-05-30 18:36:18 +08:00
用 map 这种结构?
tux
2018-05-30 18:43:55 +08:00
... 你 hash 不索引的吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/458926

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX