关于人工智能的两个认识是否正确?

2020-12-10 05:02:55 +08:00
 huzhikuizainali
本人纯小白,如果问的不得要领,请各位多包涵。

1 、在其他条件不变的情况下(比如识别用的程序)。被识别对象越复杂,需要的训练集越多?比如要让程序识别猫(从各种图片中分别,飞机,狗,人,抽象的,写实的)需要很多训练集。但是如果要让程序识别矩形(所有图片中图片中只包括黑白两色),则需要的训练集相对于猫的训练集要少?
如果以上认识正确,现在是否有什么理论可以告诉人们。要区分多么复杂的图,大致需要多大数量的训练集?或者说训练集超过某一个临界值以后,对识别率的提升边际贡献已经很小了。有没有这样的理论?


2 、以用户分类为例,如果仅仅有用户收藏,搜索关键词,点赞的这三个因子,我对用户的分类可能只能做到 5 分(假设满分是 10 分)。那么如果再获得用户浏览每个视频的时长,哪些视频进行了评论,哪些视频进行了分享,等更多指标。那么用户的分类可能会做到更好,比如 6 分。
如果以上认识是正确的。那么在实际工作中大厂是如何进一步寻找这些指标的呢?这些指标是否已经被榨干?即现有可收集的的用户指标(不是说指标的数据量,而是说指标的种类)已经应收尽收了?除去用户数量增长和算法优化带来的边际效益。在挖掘“指标”这部分潜力还大么?
2277 次点击
所在节点    Python
8 条回复
iConnect
2020-12-10 06:27:54 +08:00
1 复杂图片不好定义,是指图片大?还是图片模糊?还是图片上物体多?人眼觉得复杂机器不一定,看起来复杂,如果学习特征明显,机器也可以很容易。“复杂”没有准确定义,自然没有“复杂”度相关的理论,可以说虚拟模型都是特事特办,人工调参。如果有对应的理论,也就是可以实现机器调参了。

2 大厂也靠“蒙”参数。蒙对了就纳入模型,梦错了下次去掉,修正模型。
hello2060
2020-12-10 06:31:06 +08:00
第一个是有的,我没实际经验只是上过 coursera,一方面是样本多少,一方面是特征集的大小。样本太多会形成过拟合,相当于电脑记住了每个样本的结果所以在训练集上完美,但是在真实世界不行,这种情况下样本继续增多样本已经没用了。吴恩达的课说了好几个指标。可以判断你是样本不够还是特征集不够
huzhikuizainali
2020-12-10 06:44:30 +08:00
@iConnect 谢谢回复。
关于 2 、也就是说增加哦“有效”指标的数量对于分类效果必定有提升。这个看法是成立的?
gimp
2020-12-10 08:45:46 +08:00
借楼请教个问题,我用指纹捺印训练后的模型(训练集的图片大概 1/10 A4 纸大小),在识别 A4 扫描后的电子档上的指纹时识别不到,需要裁剪后才能识别。

我想到的解决方案如下,不知道靠不靠谱,还有没有什么好的方式,我想做的事儿是判断扫描件上有没有指纹

1,调整训练集数据,让其跟真实的要识别的图像尺寸贴近。(暂时还没有这样的训练集样本)
2,识别前对电子档图片进行裁剪(不太确定指纹具体位置,这样的话可能需要裁剪成多份小图,识别后再计算相对坐标,似乎也不太好)
mcone
2020-12-10 08:47:08 +08:00
1. 复杂的多类问题确实需要训练数据多,逻辑是多分类问题->参数少的模型难以拟合->增加模型复杂度->需要训练数据增加,但是识别黑白两色图像的数据,不一定比彩色图少,不少模型为了省事都是 RGB 转灰度再丢进去的。
需要的数据量靠经验估+根据模型验证集性能自己调,理论也有,传统机器学习的训练数据大概是 20*C,C 是模型参数个数

2. 是的,但是也可能会下降到 4 分,就像孟德尔的豌豆一样。
人肉测,人肉调参,无他。不然大厂雇一群人一年写出来一个模型,不需要更新了,那这群人还继续养着干啥,都开了呗还省钱。
huzhikuizainali
2020-12-10 09:20:41 +08:00
@mcone 谢谢回复!
“理论也有,传统机器学习的训练数据大概是 20*C,C 是模型参数个数” ---------请问这个理论是否有中文名称?有没有哪本书对这个理论有比较深入浅出地介绍?
MinQ
2020-12-10 09:29:46 +08:00
@gimp 你所使用的算法是什么?原始分辨率是多大?模型接受的分辨率是多大?有没有预处理步骤?
mcone
2020-12-10 10:31:17 +08:00
@huzhikuizainali
Vapnik-Chervonenkis Dimension
20 这个参数是经验参数,大部分描述为 10-30

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/733952

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX