这个小项目,上周被国外 AI 新闻网站报道,前些天又上了 github 热榜

2023-03-27 10:29:27 +08:00
 829939

疫情期间在校花了几个月时间,写了这个小项目,是关于音频特征提取和分析的,自己是 AI 专业研究音频的,但受限于对音频特征的理解,做研究时总感觉缺乏“底料”,所以当做是学习练手做了这个小东西。

因为是学习练手的小项目,放 github 上面后就没有太多跟进了,后来看到国内几个有名的 github 项目周报博主,想着提下 issure ,如果被收录发表的话,得到些关注获得一些 star 也是很开心的,没想到一个也没收录发表,issure 都是被忽略跳过的。

想想有些灰心,做的这个小项目本身有些偏,和前后端领域都不怎么沾边,和当前大火的 chatGPT 各种业务项目也比不了,不被收录发表也是正常的。

本来想着这个小项目能有几十个 star 就很满足的,没想到除了同学的几个 star 之外一个关注都没有,灰心丧气之时,上周竟然被国外一个 AI 新闻网站报道,带来了一些流量增加 200+star ,虽然相比 github 上一些爆火、优质的项目不值得一提,但相比之前几个 star 的情况好大多了,这是相关的文章:
https://www.marktechpost.com/2023/03/24/meet-audioflux-a-deep-learning-library-for-audio-and-music-analysis-feature-extraction/

当时还是首页报道,赶快截了图

前些天又上 github trending ,这估计纯属运气好,但持续时间并不长,又增加了一小波流量带来 100+star

这是当时的榜单,几乎都是 chatGPT 相关或其它大作的项目,我这个小项目显得有些格格不入,赶紧截图了

最后看了一些关注用户,几乎大部分都是国外的,各领域都有,一些用户质量非常高,做深度学习相关的偏多。 希望国内感兴趣的能关注支持一下,如果能参与加入进来一起做好这个开源小项目更好。
项目地址: https://github.com/libAudioFlux/audioFlux

18874 次点击
所在节点    程序员
122 条回复
dark009
2023-03-28 10:01:26 +08:00
我想做一个吉他调音器的功能,不知道这个项目是否支持?
stonepy
2023-03-28 10:10:29 +08:00
请教下大佬,要做一个类似识别语音“上、下、左、右”这种固定几个语音指令的识别,我该如何入手?
829939
2023-03-28 10:16:13 +08:00
@dark009
完全没问题,项目中 MIR 模块中有几个不同 pitch 侦测的算法,根据你的业务情况做多做下测试调参,结合上层业务情况的优化应该能出一个不错的效果。
829939
2023-03-28 10:17:19 +08:00
@stonepy
这个业务属于 ASR 领域孤立词识别,可以用 i-vector 相关技术,基于 PCA 的特征向量比对也可以尝试,还可以拿 MFCC 、mel 频谱这些特征,作为 CNN 和 RNN 网络进行训练分类,当然前面的这些特征合理归一化后也可以尝试打标签走网络分类训练,希望这些对你有所启发和帮助。
stonepy
2023-03-28 10:21:22 +08:00
@829939 感谢大佬给思路,我去尝试一下,有问题再向大佬请教~
xbcslzy
2023-03-28 10:45:42 +08:00
@829939 大佬了解拇指琴这个乐器吗,想做一个这个乐器的调音器,目前试了一些开源的算法效果都不理想,有哪些建议?
829939
2023-03-28 10:50:09 +08:00
@xbcslzy 不太了解这个乐器,请问都用了开源哪些算法,这个乐器的音域大概多少?
CMLab
2023-03-28 10:51:32 +08:00
@829939 能否出一个 C 语言 command line 版本,一些业务上会非常方便?
heywin
2023-03-28 10:57:32 +08:00
二话不说直接 star 助你一臂之力
829939
2023-03-28 11:06:02 +08:00
@CMLab 感谢建议,上面己有用户提出过,规划近期推出强大的命令行工具版本。
829939
2023-03-28 11:08:00 +08:00
@heywin 就喜欢哥们这样的爽快人 真帅
CMLab
2023-03-28 11:08:53 +08:00
@829939 非常期待,出来后论坛里可以发个消息
YZZS
2023-03-28 11:14:39 +08:00
支持一下大佬
602120734
2023-03-28 11:43:37 +08:00
支持下大佬,pip 安装试了下,效果可以的,就是好像清华节点还没有最新版本的包?我安装的还是 0.1.3 版本
829939
2023-03-28 11:59:56 +08:00
@602120734 清华镜像目前看起来同步的比较慢,请先使用官方源或者阿里镜像。
butterls
2023-03-28 12:58:26 +08:00
@829939 需求简单说是希望通过音频数据生成基础触感数据,然后驱动马达振动特定幅度频率

音频数据我现在是简单做了二分
1. 音乐类相对有规律,而且现有的节拍检测等方法有理论支撑,相对生成的振动效果比较好,但是对于节奏不明显的和声部分就会比较拉胯(这时候振动有点类似驱动了一个特殊的喇叭声道,但是和声分量即使设定阈值过滤一直振会很抢戏,主要还是缺少特点意义的检测,而且也不是所有音乐都很有节奏感)

2. 对于普通的声音,比如游戏场景中的随机枪声,按钮模拟,脚步等等这类的规律性不强的音频生成振动纹理,单纯用能量特征检测处理出来就很奇怪,相比音乐类,匹配出来的的振感就很差

因为对音频特征提取这部分确实了解的不深,所以想问问看大佬对这种非规律音频特征处理有没有什么思路,另外就是音频感知范围和振动区间( 50-500HZ )差异还是蛮大,直接做两种信号的范围映射后再处理是不是会更奇怪
829939
2023-03-28 14:00:58 +08:00
@butterls 1. “希望通过音频数据生成基础触感数据”,音频有很多特征数据可以驱动马达,如果要求是特定强度的频率震动跟随音乐鼓点的话,端点和当前范围内功率谱就可以, 是否类似音乐播放可视化震动这种效果?

2. “非规律音频” 有很多,如你所说枪声,脚步这些的区分,时域上典型的有包络,频域上有频谱、mfcc 等,如果短时突变信号多的话,可以用 CWT ,至于如何映射,这个具体和你的业务测试情况相关了,可以尝试常见的 mel/bark/erb 这些听觉刻度模型映射测验小效果。
dark009
2023-03-28 14:04:24 +08:00
@829939 谢谢帮忙分析,已 star
beneo
2023-03-28 14:09:04 +08:00
readme 里面的图怎么画的啊
stanwanng
2023-03-28 14:14:48 +08:00
ECG(人体心电图)信号进行分类,大致有三种类型数据,NSR(正常),ARR(失长)、CHF(衰竭)这三种,这块做深度学习训练分类的话用什么特征作为输入好?不知道 ECG 信号是否同样可用你项目中 audio 的特征?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/927433

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX