求助图片搜索的平台应该如何盈利

330 天前
 Thiece
技术原理上也没什么好隐瞒的,底层原理是 CLIP 的 Encoder 和 Faiss 的 Cosine similarity ;
在上层业务上,引入了新的结构优化了 CLIP 的 Text Encoder 部分,让文字搜索图片能有更前的语义到内容的关联性;

目前验证过效果较好的方面有:
1 、图片到图片搜索;
a 、支持残缺图片搜索原图;
b 、有较好的马赛克、偏色、模糊抗扰能力;
2 、文字到图片搜索;
a 、基于图片中内容特征进行搜索,如双马尾、黑丝、红色眼睛、银发;
b 、基于角色名字进行搜索;

可扩展的能力为通过图片搜索到该图片来自的剧集或者电影的时间帧(文字理论也行,但是数据库大了很难定位准确的帧)。
原理是把视频拆成了图片,然后通过内容感知来切分场景镜头,选出每个场景中标志性的几张图片;接下来的部分就和上面的流程是一样了。


基于以上的架构,它目前拥有以下的特性:
1 、如果想要搜索到这个内容,该内容源文件必须在服务器上,或曾经在服务器上(取决于是否要提供预览功能);
a 、可能会有版权风险;
b 、提供预览会对储存和带宽产生挑战;
2 、内容的泛用性搜索上挑战,需要针对每个资源站定制爬虫;
a 、如果没有改站点的爬虫,并把视频 /图片爬回至服务器,就无法制作该站点资源的搜索索引;
b 、这是一个可刑可拷的爬虫;
3 、Faiss 限制
a 、搜索索引需要载入到内存中才能运行,1G 运行内存大约可以索引 500k 张图片(未压缩情况下)
4 、模型限制
a 、虽然可以在纯 CPU 环境中跑吧,速度也还行,但是没试过高并发业务场景;
b 、如果在纯 CPU 环境中跑,Faiss 每次更新索引会随着数据的增加而线性增加;


商业化问题:
1 、服务器挺贵的,带 GPU 的服务器更贵了,然后还需要大运存;
2 、虽然不提供直接的资源服务吧,但是怎么看怎么觉得这个爬虫十分可拷;
3 、广告支撑不起一个月的服务器开支,付费搜索真的有人用吗;


目前的想法:
1 、先从 Pixiv 入手进行落地;


大家有更好的想法或者方向期望指点一下,目前这个项目有一种只考虑了技术实现没考虑工业落地的场景;
如果对这个项目有兴趣也可以联系我。
2158 次点击
所在节点    奇思妙想
29 条回复
vus520
330 天前
前提
1. 用户和你要有大量的图片
2. 搜索次数要足够高,才能 cover 你的成本

现实
1. 普通用户没有大量的图片和大量的搜索需求
2. 有大量图片的用户,一般不会放在 3 无平台上
3. 现在做多模态搜索的云和模型很多,甚至一台 GPU 机器就可以取得不错的性能

建议
1. 开源,做一些企业的订制功能
2. 接入云市场,直接使用用户的存储数据
Thiece
329 天前
@vus520
考虑过将项目制作成一个容器服务,提供给专业用户进行私有化部署,但是此场景下,用户的需求就变成检索自己的数据集中的图像文件;
这种情况下我占时没找到有类似特征的用户群体,如果有也请给予我一些提示,十分感谢;

接入云市场是一个非常棒的想法,比如为 NAS 用户提供快速的本地图像内容检索;
lucybenz
329 天前
换个表达方式 图片资产标注 输出标签文本和提供快速检索 slogan:把你的素材变成资产
star7th
329 天前
大概率不能。百度和谷歌都提供识图功能,且他们的搜索范围更广。你做这个,推广都是一个问题,别说盈利了。
star7th
329 天前
nas 的话,像群晖这些商家不知道提供功能了没。如果没有,他们早晚会做这个功能。
zhangtest
329 天前
@star7th 话别说太满,也许他做的是 H 图搜索呢?那绝对行业第一家
star7th
329 天前
@zhangtest

图像搜索很多开源库。基本没有太多入门的技术门槛。要做深则很难。这东西就像训练 AI 那样,需要数据和算力。早就不是单个人就能玩好的领域了
maggch97
329 天前
先找到用户使用,再考虑盈利。如果初期用户的成本都 cover 不了,直接别做。
Thiece
329 天前
@star7th
技术方案和落地场景上不一样;
这套技术主要面向的场景是精准搜索,把残缺的图片精准的搜索出原图;或者尝试通过文字精准搜索到原图;

如果是面向相册的搜索场景,文字搜索的案例是:女人、天空、草地、树,也可以用自然语言句子;
如果是面向视频的搜索场景,文字搜索的案例是:胡歌、古装、剑;
Thiece
329 天前
@zhangtest
色图找车号是吧,场景听起来挺诱人,可刑可拷
Thiece
329 天前
@lucybenz
是的,你的描述很准确;
不过这也是我没想明白的地方,什么类型特征的用户群体,会有对这方面有需求。
erquren
329 天前
我们有这样的需求,一个厂区有 200 多个摄像头,全部做了 6 个月的录像保存,我现在需要把有车的时间戳弄出来,有人的时间戳弄出来,或者其他客户想要找的东西都弄出来
Thiece
329 天前
@erquren
你这个需求,有更简单的方案,使用 Yolov5 的轻量化模型就能够实现对人物和车辆的识别;
bqn
329 天前
有一个应用,是客户端的,对本机的媒体资源处理后,支持文搜和图搜的
token10086
328 天前
回不了本吧,我给公司做的是双塔跑了怼 ES 里面求距离。但是对个人来说我感觉除非是找番号,否则真的很难回本。
qztx
328 天前
想要自部署的,自己电脑上存储了大量的美图色图,经常想要通过记忆中的特征或者模糊图找到原图
搜互联网感觉不太现实,个人没有钱和精力去处理海量的图片,而且市面上已经有不少大的平台了
elonmask
327 天前
把 clip 模型转成 coreml 或者 tflite 塞手机 app 中做个 app 都比你这有前途。
Thiece
327 天前
@elonmask
在边缘设备上运行 CLIP 目前还是有很大的挑战,能跑在无加速器的 NAS 上已经很勉强了。
Thiece
327 天前
@bqn
是的,功能上与这些产品并没有太大的区别,只是在精度上取得了进展
Thiece
327 天前
@qztx
在储存的压力上,未必要保持原图,需要记录的是这张图的特征;
但也这意味着这套模式下需要得到这张图,所以只能针对特定的资源数据进行处理;
是可以做到本地化部署的,在无加速设备上是模型数据处理录入处理速度快慢的区别,在搜索上 Faiss 的性能还不错。

这几天我问过一些从事剪辑师的朋友,这个产品的特性确实能帮助到他们,但是对于他们目前的工作流来说也有一些侵入,如果想要推广到团队中需要进行一些调整。

对于画师的朋友,目前存在这么一个困境,本地的储存的资源真的比 pixiv 更丰富吗?如果我基于 pixiv 作为数据库,为每个用户提供自定义 tag 的功能,是否可以提供更好的图片搜索。在搜索完成后下一步再提供图片的链接。

这里我总结一下,用户的需求分为两种:
1 、期望根据手头上的信息,找到该信息的出处的精准信息,并且提供该信息的站外搜索或者直达链接。
2 、根据想要信息的描述,找到多个符合该信息特征的相关信息。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/949034

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX