低成本识图方案?

121 天前
 chanlk
目前正在预研一个低成本的识图方案,场景是家用安防摄像机的。

目前调研了有两个方向

一个是以 yolo 、aws rekonition 为代表的传统的 CNN 识图方案,
其中 yolo 面临的问题是现成的模型有标签不足够覆盖场景,要自己训练心里没底
直接用 aws rekonition 的成本很高,谈了折扣算下来也还是很高

传统方案有另一个弊端就是对于抽象的"词"无法理解,比如想要对"危险情况"做识别,只能分解到具体的事物,比如火焰、枪支、刀具等。


另一个是走大模型的识图方向
1. 自己部署开源模型,Qwen2.5 VL 系列和 Janus-Pro ,7B 和 32B 都试了,感觉效果不佳
2. 调 Api ,试了几家,发现 aws nova 在价格和效果上都很不错

我纯后端开发,计算机视觉和大模型方面是个小白
站内的大佬有在这方面有经验的吗,有什么经验可以分享一下,谢谢你~
4922 次点击
所在节点    程序员
39 条回复
rockdodos
121 天前
Qwen 微调效果还行
bluesenzhu
121 天前
摄像头厂家不是吹自己就能告警吗
encro
121 天前
既然放在卧室,那么如何识别男女主人是在造人还是在家暴?
clemente
121 天前
找海康威视贴牌 OEM
chanlk
121 天前
@encro 额,如果是大模型的话,NSFW 的内容不知道会怎么处理,晚上回家测一下
chanlk
121 天前
@bluesenzhu 最早期移动侦测、声音告警,近些年有人体告警(装了红外感应),或者有一些人体侦测算法集成在摄像机里。稍微复杂的识别摄像机带不动。
chanlk
121 天前
@rockdodos 怎么微调呀,你试过吗?
rockdodos
121 天前
@chanlk #27 用 LLaMA-Factory 微调,看官方文档调的。
wanghui22718
121 天前
https://www.corerain.com/solution
端侧解决方案,了解一下
Liftman
121 天前
你这个还不够低。来。让我掏出来一个给你。https://github.com/apple/ml-fastvlm 500m 的小模型。我在 mac 上跑。100ms 一次解析都嫌慢。不过再快也没意义了。。毕竟看不清了已经。。。。
Liftman
121 天前
https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。
zzhpeng
121 天前
实时分析好吃带宽,如果远端录像识别
xytest
121 天前
@rockdodos #21 请问是 Qwen-VL 吗?
openmynet
119 天前
可以测试下用 clip 做零样本分类
yuxian
118 天前
很简单,分为多部分。方便吹牛 B ;
1 ,在终端,使用通用的 YOLO ,嵌入端,可以用压缩好的模型。性能佳。无需训练。直接调用 sdk ,即可使用。作为泛用场景监控。只需要有疑似的图像,视频片段上传即可,精度可以自行根据严格模式调节。
2 ,在服务端,处理终端上传的疑似数据。优先使用自训练的 yolo 。对于依然无法确认的,可以调用视觉大模型,再次核对。如果依然无法确定结果的,人工接入审核。
AmaQuinton
118 天前
项目上用过某个研究院提供的 api ,用于道路违停和火灾预警实时监测
chanlk
118 天前
@Liftman #31 要用 mac 才能跑吗,我有个老 mac ,Intel 时代的了,跑得动吗?
chanlk
118 天前
@yuxian 终端暂时不考虑了,我们的设备有部分是第三方的。感觉还是直接上大模型算了了,我们人太少、资源不足搞不了 yolo ,这事儿从头到尾就我一个人干.....
Liftman
118 天前
@chanlk 无所谓啊。https://github.com/ngxson/smolvlm-realtime-webcam 用这个项目跑我楼上的模型比较简单。。这个直接跑。不需要 mac 。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1133770

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX