有什么 AI 应用平台可以支持多模态模型、带图提问检索的？

2025 年 8 月 29 日

dandankele

需要构建一个硬件设备维修 RAG 应用，可以通过拍照传图+文字描述、纯拍照传图、纯文字描述等方式，让应用根据知识库内容来回答设备可能出现什么故障并且如何检查和维修。

目前的主要问题点就是在于图文混合，用户提问可能只是拍照，也可能是拍照和文字描述等。我已经看了 coze 、dify 、ragflow 等，多少都有点受限或者不支持。

有没有实践成功的兄弟姐妹。。多模态模型选什么好？用不用开源的 AI 应用平台？还是说图和文分开处理的、不在同一个向量空间里存储？

2126 次点击

所在节点

8 条回复

longredzzz

2025 年 8 月 29 日

多模态的话，现在应该没有比 gemini 更好的选择了吧。

miaoblyat

2025 年 8 月 29 日

qwen 有多模态模型可以图片视频加文本提问

zcf0508

2025 年 8 月 29 日

glm 4.5v

dandankele

2025 年 8 月 29 日

主要是各位有没有具体的实践啊，选了多模态模型之后，开源的 AI 工作流平台选哪个，coze 貌似还不支持多模态模型，dify 好像仅能用 gemini ？ ragflow 中添加了工具之后就无法分析上传的图片。。。

tanglindan6

2025 年 8 月 29 日

https://imini.com/ iMini AI 新上的

razertory

2025 年 8 月 29 日

感觉要拆成两个问题。
1. 多模态检索，比如搜图，这个有非常多的方案。但是要把图片向量到 RAG 系统，得有专门的实践。
2. 多模态对话，也就是上传图片，这个就是头部几家公司的模型做得不错。

GotKiCry

2025 年 8 月 29 日

Dify 接 Gemini 应该是可以达到要求的

lizy0329

2025 年 8 月 29 日

只有豆包了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.