现在有哪些支持实时视频/视觉的大模型?

176 天前
 mmdsun
请问现在国内外有哪些支持实时视频视觉的大模型 API ,大家有推荐的吗?(优先国内模型 海外也行)

就像之前 Openai 发布会那种,可以视频通话,实时对话那种的。
或者 Copilot Pro 那种,实时捕获电脑桌面,指导用户玩游戏的。

想用他们分析视频流,分析结果输出 json 等格式存储,不知思路是否可行。谢谢。
1193 次点击
所在节点    问与答
2 条回复
hwdq0012
176 天前
视频也是拆成单帧送去推理的,ultraclity yolo 这种不算什么大模型吧,但是能把视频做成结构化数据,再用大模型加工
suke119
176 天前
Qwen2.5-Omni . 千问的 ai 对话那里点击 有个实时视频对话

[Qwen2.5-Omni 和 minicpm-v 对比]( https://stable-learn.com/zh/qwen-omni-vsminicpm-v/)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1122230

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX