是否有书籍或论文阐述机器学习准确率与数据量、数据质量之间关系的理论?

2022-01-10 23:54:32 +08:00
 huzhikuizainali

请看下图。介绍了增加数据量对机器学习(在视频中机器学习囊括神经网络,traditional AI 在此指神经网络以外的传统机器学习方法)和神经网络识别准确率的不同效果。显然增加数据量在神经网络上可以带来更好的效果。机器学习对数据量的增加更容易钝化(曲线更早变平)。 不知道是否有文章或书籍对此问题有更深入的介绍?例如:以监督学习为例 1 、多大的数据量会成为传统机器学习与人工智能识别率的分水岭?比如图中圆圈部分,可能更少的数据量神经网络与传统机器学习的差别不大,甚至更差。 2 、传统机器学习和神经网络对训练集的兼容性是否有差别。比如训练识别猫的训练集。可能只有 10%不是猫,90%都是猫。另一种训练集猫和非猫各 50%。两种方法对不同训练集的训练效果会有明显差异么? 之所以问这个问题是因为现实中可能要满足猫和非猫各 50%那么总训练集数量就不足了。总训练集数量达标,非猫样本比例可能就比较低了。

3 、考虑以下两种错误来衡量识别率,传统机器学习和神经网络在数据量增加后是否有更大的差异? 第一类错误:将猫划入非猫一组。 第二类错误:将非猫划入猫一组。 现实中每种错误的代价差别很大。训练集样本增加在第一类和第二类错误率上,传统机器学习和神经网络是否对训练数据量增加有不同的敏感程度?

798 次点击
所在节点    机器学习
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/827450

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX