计算机视觉能否在一张大图里识别非常小的目标？

最近在折腾 opencv 和深度学习计算机视觉，然后我就发现无论是 opencv 的主流算法，还是深度学习的计算机视觉，对要寻找的目标的大小，似乎是有要求的。对目标比较细小的场景，效果很不理想。

https://web.inf.ufpr.br/vri/databases/parking-lot-database/
比如这张图里的汽车，非常的小，每个汽车大概只有十几个像素的宽和高。opencv 的主流算法 sift ，orb ，甚至连建立样本特征都做不到。

我不知道是不是我使用方法不太对，但是网上确实也有一些资料，说现有的计算机视觉技术对细小目标似乎不好使

imn1

2022-08-29 12:46:27 +08:00

理由很简单，因为特征信息不足够，甚至为零

人类对于细小目标也是不容易判断的，你给的例图人脑能判断“汽车”，因为是意识到停车场这个场景，然后“脑补”出汽车

目前的 AI 技术对于场景、语境等等方面还不够强，需要将来技术补充

jifengg

2022-08-29 13:16:06 +08:00

用了 yolov5 ，前两张图片能识别到一些，Parking2 的基本都识别不到。

abcbuzhiming

2022-08-29 15:47:21 +08:00

@imn1
也就是说现在的机器视觉确实对细小目标没有办法？

但是，我曾经看过一个很特殊的案例，给出一堆钢管的侧面图，识别这一堆堆叠的钢管有多少根。然后机器视觉非常轻松的就实现了，从结果图上看，机器很容易的就对钢管截面那个很细小的目标（图像像素大约只有 6-10 ）进行了采样，采样的点密布整个钢管截面。
当然这是特例，例子的给出人也说这个东西就是专门识别密集堆叠的圆形截面物体的，干不了别的。

abcbuzhiming

2022-08-29 15:49:22 +08:00

@jifengg 关于深度学习，我个人猜测那个卷积核的大小可能对识别图的大小有很大影响，但是我找了不少资料，也没找到这方面的描述，很少有资料提及 [机器学习对图片有大小要求，这个问题]

zznext

2022-08-29 16:10:18 +08:00

一张 99*99 像素的图；可以按 3*3 为一个单位划分，一个单位提取一个特征。如果原图就是 3*3 ，提取完。也还原不回去了。以前毕设做图像分割；就给我一种感觉，没有海量数据集，什么算法都是扯淡

imn1

2022-08-29 16:15:37 +08:00

@abcbuzhiming #3
先说这个案例
这个案例实际上是识别形状，不需要判别物体的性质，能测出相似形状的个数就可以了

再说重点：
识别物体和识别数量是两回事，像这个案例，其实黑皮塑料管还是钢管，是分不出来的（或者可以，但需要其他资讯，就是图片要包含其他信息，例如“钢材堆场”）
举个例子，两张低清晰度的鸟瞰照片，一个是集装箱场（假设只有一层堆放），一个是停车场，它们分别求数量是没问题的，但要分出里面的“长方形”是集装箱，还是汽车，那就是另一回事了

所以你要搞清楚需求[概念]，识别物体是需要特征点的，人脑对“场景”的概念是很清晰的，只要搞清场景，即使很少特征也能辨认出物体，“脑补”说的就是这个。但如果“场景”不明显，人脑也分不出，例如灾难片电影很多是用模型拍的（加电脑特效），人看到电影时却感觉是实景

期待将来技术能更多引入“场景”识别，更接近人脑思维，就可以提高精准度

参考隔壁一帖：微软本地化 https://www.v2ex.com/t/876092 ，“win 键”译成“赢得”，就是机器翻译没考虑语言场景(也应该是做不到)，很多词语显得生硬和错误

okakuyang

2022-08-29 17:24:56 +08:00

可以的，有些方向是专门从航拍照片里识别地面船舶、车辆，建筑物数量的。但是这种一般是专有的，就只能识别几样东西。

loadingimg

2022-08-30 10:49:13 +08:00

yolov5+sahi 可解

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/876162

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.