求助图片搜索的平台应该如何盈利

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个专门讨论 idea 的地方。

每个人的时间，资源是有限的，有的时候你或许能够想到很多 idea，但是由于现实的限制，却并不是所有的 idea 都能够成为现实。

那这个时候，不妨可以把那些 idea 分享出来，启发别人。

这是一个创建于 407 天前的主题，其中的信息可能已经有所发展或是发生改变。

技术原理上也没什么好隐瞒的，底层原理是 CLIP 的 Encoder 和 Faiss 的 Cosine similarity ；
在上层业务上，引入了新的结构优化了 CLIP 的 Text Encoder 部分，让文字搜索图片能有更前的语义到内容的关联性；

目前验证过效果较好的方面有：
1 、图片到图片搜索；
a 、支持残缺图片搜索原图；
b 、有较好的马赛克、偏色、模糊抗扰能力；
2 、文字到图片搜索；
a 、基于图片中内容特征进行搜索，如双马尾、黑丝、红色眼睛、银发；
b 、基于角色名字进行搜索；

可扩展的能力为通过图片搜索到该图片来自的剧集或者电影的时间帧（文字理论也行，但是数据库大了很难定位准确的帧）。
原理是把视频拆成了图片，然后通过内容感知来切分场景镜头，选出每个场景中标志性的几张图片；接下来的部分就和上面的流程是一样了。

基于以上的架构，它目前拥有以下的特性：
1 、如果想要搜索到这个内容，该内容源文件必须在服务器上，或曾经在服务器上（取决于是否要提供预览功能）；
a 、可能会有版权风险；
b 、提供预览会对储存和带宽产生挑战；
2 、内容的泛用性搜索上挑战，需要针对每个资源站定制爬虫；
a 、如果没有改站点的爬虫，并把视频 /图片爬回至服务器，就无法制作该站点资源的搜索索引；
b 、这是一个可刑可拷的爬虫；
3 、Faiss 限制
a 、搜索索引需要载入到内存中才能运行，1G 运行内存大约可以索引 500k 张图片（未压缩情况下）
4 、模型限制
a 、虽然可以在纯 CPU 环境中跑吧，速度也还行，但是没试过高并发业务场景；
b 、如果在纯 CPU 环境中跑，Faiss 每次更新索引会随着数据的增加而线性增加；

商业化问题：
1 、服务器挺贵的，带 GPU 的服务器更贵了，然后还需要大运存；
2 、虽然不提供直接的资源服务吧，但是怎么看怎么觉得这个爬虫十分可拷；
3 、广告支撑不起一个月的服务器开支，付费搜索真的有人用吗；

目前的想法：
1 、先从 Pixiv 入手进行落地；

大家有更好的想法或者方向期望指点一下，目前这个项目有一种只考虑了技术实现没考虑工业落地的场景；
如果对这个项目有兴趣也可以联系我。

搜索

图片

爬虫

faiss

29 条回复 • 2023-12-05 02:04:43 +08:00

vus520

2023-06-15 21:28:06 +08:00

前提
1. 用户和你要有大量的图片
2. 搜索次数要足够高，才能 cover 你的成本

现实
1. 普通用户没有大量的图片和大量的搜索需求
2. 有大量图片的用户，一般不会放在 3 无平台上
3. 现在做多模态搜索的云和模型很多，甚至一台 GPU 机器就可以取得不错的性能

建议
1. 开源，做一些企业的订制功能
2. 接入云市场，直接使用用户的存储数据

Thiece

2023-06-16 00:21:52 +08:00

@vus520
考虑过将项目制作成一个容器服务，提供给专业用户进行私有化部署，但是此场景下，用户的需求就变成检索自己的数据集中的图像文件；
这种情况下我占时没找到有类似特征的用户群体，如果有也请给予我一些提示，十分感谢；

接入云市场是一个非常棒的想法，比如为 NAS 用户提供快速的本地图像内容检索；

lucybenz

2023-06-16 06:41:59 +08:00

换个表达方式图片资产标注输出标签文本和提供快速检索 slogan：把你的素材变成资产

star7th

2023-06-16 09:01:25 +08:00

大概率不能。百度和谷歌都提供识图功能，且他们的搜索范围更广。你做这个，推广都是一个问题，别说盈利了。

star7th

2023-06-16 09:02:25 +08:00

nas 的话，像群晖这些商家不知道提供功能了没。如果没有，他们早晚会做这个功能。

zhangtest

2023-06-16 09:10:17 +08:00

@star7th 话别说太满，也许他做的是 H 图搜索呢？那绝对行业第一家

star7th

2023-06-16 10:08:17 +08:00

@zhangtest

图像搜索很多开源库。基本没有太多入门的技术门槛。要做深则很难。这东西就像训练 AI 那样，需要数据和算力。早就不是单个人就能玩好的领域了

maggch97

2023-06-16 10:58:33 +08:00

先找到用户使用，再考虑盈利。如果初期用户的成本都 cover 不了，直接别做。

Thiece

2023-06-16 11:36:50 +08:00

@star7th
技术方案和落地场景上不一样；
这套技术主要面向的场景是精准搜索，把残缺的图片精准的搜索出原图；或者尝试通过文字精准搜索到原图；

如果是面向相册的搜索场景，文字搜索的案例是：女人、天空、草地、树，也可以用自然语言句子；
如果是面向视频的搜索场景，文字搜索的案例是：胡歌、古装、剑；

Thiece

2023-06-16 11:39:00 +08:00

@zhangtest
色图找车号是吧，场景听起来挺诱人，可刑可拷

Thiece

2023-06-16 11:43:05 +08:00

@lucybenz
是的，你的描述很准确；
不过这也是我没想明白的地方，什么类型特征的用户群体，会有对这方面有需求。

erquren

2023-06-16 13:56:35 +08:00

我们有这样的需求，一个厂区有 200 多个摄像头，全部做了 6 个月的录像保存，我现在需要把有车的时间戳弄出来，有人的时间戳弄出来，或者其他客户想要找的东西都弄出来

Thiece

2023-06-16 14:06:26 +08:00

@erquren
你这个需求，有更简单的方案，使用 Yolov5 的轻量化模型就能够实现对人物和车辆的识别；

bqn

2023-06-16 17:17:45 +08:00

有一个应用，是客户端的，对本机的媒体资源处理后，支持文搜和图搜的

token10086

2023-06-17 00:18:09 +08:00

回不了本吧，我给公司做的是双塔跑了怼 ES 里面求距离。但是对个人来说我感觉除非是找番号，否则真的很难回本。

qztx

2023-06-17 11:06:00 +08:00 via Android

想要自部署的，自己电脑上存储了大量的美图色图，经常想要通过记忆中的特征或者模糊图找到原图
搜互联网感觉不太现实，个人没有钱和精力去处理海量的图片，而且市面上已经有不少大的平台了

elonmask

2023-06-18 00:23:41 +08:00 via Android

把 clip 模型转成 coreml 或者 tflite 塞手机 app 中做个 app 都比你这有前途。

Thiece

2023-06-18 04:15:42 +08:00

@elonmask
在边缘设备上运行 CLIP 目前还是有很大的挑战，能跑在无加速器的 NAS 上已经很勉强了。

Thiece

2023-06-18 04:16:44 +08:00

@bqn
是的，功能上与这些产品并没有太大的区别，只是在精度上取得了进展

Thiece

2023-06-18 04:28:48 +08:00

@qztx
在储存的压力上，未必要保持原图，需要记录的是这张图的特征；
但也这意味着这套模式下需要得到这张图，所以只能针对特定的资源数据进行处理；
是可以做到本地化部署的，在无加速设备上是模型数据处理录入处理速度快慢的区别，在搜索上 Faiss 的性能还不错。

这几天我问过一些从事剪辑师的朋友，这个产品的特性确实能帮助到他们，但是对于他们目前的工作流来说也有一些侵入，如果想要推广到团队中需要进行一些调整。

对于画师的朋友，目前存在这么一个困境，本地的储存的资源真的比 pixiv 更丰富吗？如果我基于 pixiv 作为数据库，为每个用户提供自定义 tag 的功能，是否可以提供更好的图片搜索。在搜索完成后下一步再提供图片的链接。

这里我总结一下，用户的需求分为两种：
1 、期望根据手头上的信息，找到该信息的出处的精准信息，并且提供该信息的站外搜索或者直达链接。
2 、根据想要信息的描述，找到多个符合该信息特征的相关信息。

lucybenz

2023-06-18 08:57:19 +08:00

@Thiece 个人猜测有图片素材库的个人和机构都有这个需求。比如从事内容创作的个人和团队不过只是猜测没有数据支撑

elonmask

2023-06-19 14:44:31 +08:00

@Thiece 没啥挑战的，不少人都做了啊

Thiece

2023-06-19 18:23:50 +08:00

@elonmask
追求的不是 paper 是工业化落地

elonmask

2023-06-21 15:53:33 +08:00 via Android

@Thiece 扯什么 paper 啊，我说的是把模型搞到 app 中做搜索。不是在电脑上做，离线单机的 clip 模型没多大，clip text 和 clip visual 量化之后总共才 200M ，我见过有人做了。

Thiece

2023-06-21 17:11:39 +08:00

@elonmask
哦明白了，是我误解了，不过和你想的不太一样，我们没有使用完整的 CLIP ，只是使用 CLIP 的 embedding 部分。
包括文字搜索，也只是使用到输出 CLS Token 部分。

CLIP Base 做到 200M 甚至 100M 完全是有可能的。

目前与仅使用 CLIP 落地的项目还是不太一样的。
当然这并不是说我们不能做离线私有化部署，正如上面我对其人的回复中，优先做一个单机的的落地版本我占时还不清楚能够帮助到哪些人。如果在这方面你有更好的建议我们可以深入探讨。

st2udio

2023-06-22 09:32:37 +08:00

手机上跑 clip 已经有 app 上架了，还是在 V 站上看到的。转成 CoreML 支持的模型也就几百 M ，商可。其他的可能主要是商业用途，比如去年我给我们公司的图片搜索功能换成了 Clip

74123gzy

2023-07-13 14:47:07 +08:00

不知到，但搜图我肯定会直接想到 tineye ，然后就是谷歌百度啥的，这个我觉得普通人真入局不了

ldyisbest

235 天前

有 demo 了吗体验下

Thiece

235 天前

@ldyisbest
没线上 demo ，基础版开源了，你可以本地跑；
有兴趣我们可以聊聊。
https://github.com/NTUYWANG103/clip-image-search