方言音频分类机器学习请教

背景：最近个人 project 需要做了一个方言的机器学习分类器，目前就两种，输入是视频的音频，模型是最简单的 1dCNN 只有几层，数据量大约有 30 小时，两种方言对半分。在测试集上准确率都在 80%以上，偶尔飙升到 90%多。但实际场景的话，有一种方言被严重多估大概一半。

分析：第一点大概是数据不够，在 CNN 下面加 BatchnNormalization 的话准确率很低，所以或称了 dropout 效果就好很多了。但大概也是如此，因为人工标注的数据太少，导致实际场景准确率没有测试集高，而且都是某一种方言错得特别多，另一种准确率则不错。第二点大概是模型问题，因为我是业余的，所以也懂得不多。第三是提取特征的问题，音频的分析用的是 librosa，提取 mfcc/zero_crossing/tempogram/bandwidth 等特征。我猜更好可能是先要分离背离音，然后再分析比较好。

问题：目前优化怎样会比较好？增加数据量？尝试在分离特征上努力，分离背景音？只选没有背景音的输入数据？优化模型？谢。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/680846

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.