基于这个开源小项目,做哪些受欢迎的 ChatGPT 插件模型?

2023-04-03 13:42:51 +08:00
 829939

本人研二,专业深度学习音频领域研发,去年在校做了一个开源小项目,是关于音频特征提取和分析的,可以针对音频领域的各种业务做原型开发,目前规划的音频领域的研究任务方向:

  1. 智能调音器, 针对吉他弦乐乐器的调音,识别音高和拨动的哪一根琴弦,
  2. 旋律提取,从音乐音频中识别旋律音高轮廓,主要针对人声唱歌主旋律声音的基频提取,
  3. 音轨分离,从音乐音频中分离出人声,钢琴、吉他、鼓、贝斯等多个乐器声音
  4. 和弦估算,识别音乐音频中和弦,和弦类型有大小三、挂 2/4 、属七、属九和弦以及各个类型的转位,包括起始和持续时间
  5. 钢琴转录,针对钢琴乐器音频的复音识别,确定复音的端点、音高组合、持续时间,转录为 midi 或曲谱
  6. .....

如果做成 ChatGPT 插件模型哪些会更受欢迎?这些方向应用场景和需求怎么样?
欢迎大家参与论讨或给出新的方向建议!!! 后续按大家讨论建议汇总, 确认几个研究方向后按优先级逐步开发实现并开源贡献。

项目地址: https://github.com/libAudioFlux/audioFlux

3994 次点击
所在节点    程序员
55 条回复
829939
2023-04-03 14:52:21 +08:00
@fanjk 这需要对大量音频数据进行特征提取,对数据进行标注,打上情感标签。然后建立机器学习模型,对标注好的数据进行训练。然后就可以针对你的音频进行情感预测。
zhhanging
2023-04-03 15:00:20 +08:00
现在手机上的调音器 app 就可以有 1 的效果了呀,而且调音功能是免费的,我用的是 guitartuna
829939
2023-04-03 15:07:50 +08:00
@zhhanging 你说的没错。市面上确实有一些还不错的调音器 APP 。 但是并没有发现能识别你弹奏的是哪一根弦的,而是根据识别到的音高频率 简单的归到临近频率的弦上。 这对吉他新手 或者“新琴”很不友好,识别错弦的话 很容易让人把弦条断。
这里就可以根据每根弦的声乐特征进行训练,可以识别出用户弹奏的是哪一根弦,进而提示该调高还是调低。
另外这个做出来也将是开源的。guitartuna 好像还有些付费限制。
james0517
2023-04-03 15:15:01 +08:00
我想训练模型,可是我的垃圾显卡不太想,40 系显卡太贵了 - - 还有什么推荐吗
chatWell1
2023-04-03 15:15:05 +08:00
@zhhanging "识别音高和拨动的哪一根琴弦",大佬想表达应该不止音高,还有确认是哪一根弦发出的,目前市面上 app 大多估计都是基于纯粹的频率音高做的,对新手可能不太友好,某些情况下弦可能调断或越调越低
CMLab
2023-04-03 15:18:44 +08:00
@james0517 goole 免费的 Colab 可以白嫖,就是有时候可能不太稳定
james0517
2023-04-03 15:23:38 +08:00
@CMLab Colab 我看过,感觉有点麻烦。 我本地大量数据集还要上传到 google ,费流量。
还是想在本地跑。 有没有显卡推荐
fanjk
2023-04-03 15:25:03 +08:00
@james0517 4070 快出了,我想买,但是看 amd 的性价比更好,就是不知道对于训练来说兼容性如何?
xbcslzy
2023-04-03 15:48:32 +08:00
@fanjk 3080 3090 性价比高一些
fanjk
2023-04-03 15:57:13 +08:00
@xbcslzy 30 系都是矿吧
CMLab
2023-04-03 16:10:41 +08:00
@james0517 找二手 A100 试试
s0nnse
2023-04-03 16:12:44 +08:00
1 无用,很多调音设备已经具备这个功能了,并不复杂。推荐自动扒歌、音画分录的音轨自动对齐,根据视频里的手势自动识别和弦、自动生成简谱,根据录屏自动教学、纠错。
diggerdu
2023-04-03 16:19:09 +08:00
分离转谱这些技术都相对成熟了
chatWell1
2023-04-03 16:31:26 +08:00
@diggerdu @829939 分离相对成熟一些,一般最多人声,钢琴、bass 、鼓、其它,如果加上吉他等其它乐器延展一下就更好了;转谱这块成熟的不多,这里面涉及到一个 multi-pitch 以及多声部端点侦测的问题,目前这块没有太好的,大佬可以尝试这方面的研究,这也是一直是 MIR 领域比较难啃的一个点
insmoin
2023-04-03 17:05:00 +08:00
钢琴转录 midi 好几年前就有了 你可以优化下 字节开源的 https://github.com/bytedance/piano_transcription
findex
2023-04-03 17:24:38 +08:00
@CMLab 我现在用的 mac 上某免费软件,可以体验所有功能。
829939
2023-04-03 17:27:24 +08:00
@insmoin 感谢推荐。我试试效果
CMLab
2023-04-03 17:41:53 +08:00
@insmoin 这个早起有关注过,网络结构上采用常用的 CRNN+联合损失函数,给的 demo 也不错,之前录了一把小星星实测一把,效果不理想,比 demo 差远了,我怀疑是不是某种过拟合了,还是真实录制的钢琴( the one )就是有问题,大佬有实测使用过感受效果吗?
CMLab
2023-04-03 17:49:59 +08:00
@829939 @insmoin 转录这块,我发现台湾某一个大学出的一个 omnizart 项目还算能出一些效果,和弦识别这块貌似只有大小三和弦,转录这块要成熟应用还有不少差距(实测节奏、音高这些都或多或少有问题),本项目是基于现有音轨分离、chord 识别一些开源项目基础上二次训练而成的,大佬研究这块可以借鉴一下
xbcslzy
2023-04-03 18:05:33 +08:00
@fanjk 高端的矿少一些 特别是 12G 版本的, 而且 30 系是最后一代 sli 了 后边扩 2 卡 4 卡不知道 40 系能不能搞

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/929397

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX