用视觉大语言模型检索表情包

22 天前
 heimoshuiyu

脑子一抽想出来的 idea 。好奇大模型对各种 meme 能理解到什么地步。后面加入语义检索就变成有用的 meme 检索工具了。前端是 vibe coding 的,后端是 Rust 手写的,VLM 提示词是瞎写的,钱包余额是烧光了的。

欢迎各位玩玩,第一次搜索时加载 VectorChord 的缓存可能有点慢。

https://vlmeme.aquarium39.moe

1219 次点击
所在节点    分享创造
11 条回复
est
22 天前
好帖没人回啊。
heimoshuiyu
22 天前
@est 可能是睡觉了吧,明天周一上班摸鱼应该就有人了(希望(
beyondex
22 天前
好想法
5261
21 天前
@heimoshuiyu 这个模型是提供表情图片还是图片对应的文字喂给大型模呢? 选视觉学习模式还是文本学习模型呢
heimoshuiyu
21 天前
@5261 提供的是图片,图片喂给视觉大语言模型 VLM 模型,模型再吐出文字。然后用 embedding 模型做文字的语义搜索。每个图片下方还有使用 CLIP 和 embedding 在视觉和文字语义上推荐的相似图片
5261
21 天前
@heimoshuiyu 好的,准备用大量靓妹图片做模型,然后根据关键字搜索那啥
heimoshuiyu
21 天前
@5261 牛的
beyondex
21 天前
话说 VectorChord 说他是 pgvector 的继任者,是指的它自己组织目录下的那个 pgvector.rs https://github.com/tensorchord/pgvecto.rs
还是 这个 pgvector https://github.com/pgvector/pgvector

这俩名字重名了。。。
beyondex
21 天前
@5261 有现成别人做好的产品,图片本地计算不需要云:归海桌面&图片搜索
5261
21 天前
heimoshuiyu
21 天前

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1153026

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX