这个小项目,上周被国外 AI 新闻网站报道,前些天又上了 github 热榜

2023-03-27 10:29:27 +08:00
 829939

疫情期间在校花了几个月时间,写了这个小项目,是关于音频特征提取和分析的,自己是 AI 专业研究音频的,但受限于对音频特征的理解,做研究时总感觉缺乏“底料”,所以当做是学习练手做了这个小东西。

因为是学习练手的小项目,放 github 上面后就没有太多跟进了,后来看到国内几个有名的 github 项目周报博主,想着提下 issure ,如果被收录发表的话,得到些关注获得一些 star 也是很开心的,没想到一个也没收录发表,issure 都是被忽略跳过的。

想想有些灰心,做的这个小项目本身有些偏,和前后端领域都不怎么沾边,和当前大火的 chatGPT 各种业务项目也比不了,不被收录发表也是正常的。

本来想着这个小项目能有几十个 star 就很满足的,没想到除了同学的几个 star 之外一个关注都没有,灰心丧气之时,上周竟然被国外一个 AI 新闻网站报道,带来了一些流量增加 200+star ,虽然相比 github 上一些爆火、优质的项目不值得一提,但相比之前几个 star 的情况好大多了,这是相关的文章:
https://www.marktechpost.com/2023/03/24/meet-audioflux-a-deep-learning-library-for-audio-and-music-analysis-feature-extraction/

当时还是首页报道,赶快截了图

前些天又上 github trending ,这估计纯属运气好,但持续时间并不长,又增加了一小波流量带来 100+star

这是当时的榜单,几乎都是 chatGPT 相关或其它大作的项目,我这个小项目显得有些格格不入,赶紧截图了

最后看了一些关注用户,几乎大部分都是国外的,各领域都有,一些用户质量非常高,做深度学习相关的偏多。 希望国内感兴趣的能关注支持一下,如果能参与加入进来一起做好这个开源小项目更好。
项目地址: https://github.com/libAudioFlux/audioFlux

17243 次点击
所在节点    程序员
122 条回复
ppxiale
2023-03-27 11:51:31 +08:00
大致看了下项目,很好奇是哪些周报博主?对这个“小项目”有些眼拙啊
collinmehle
2023-03-27 11:59:51 +08:00
@ppxiale 我已经关注过,虽然水平一般,但眼不拙
fanjk
2023-03-27 12:02:32 +08:00
@ppxiale 已 star,眼不拙
zhengwu119
2023-03-27 12:09:19 +08:00
怎么样才能上 github 热榜,传授下经验☺️
829939
2023-03-27 12:14:59 +08:00
@zhengwu119 我这边真的没有什么经验,能上估计全靠运气。
ppxiale
2023-03-27 12:46:48 +08:00
@829939 我认为 ChatGPT 出来之后,文本方面的只能才算是一个突破,音频处理、视频处理目前都还是未知领域,相信在不久的将来,语音和视频方面也能够有这种产品出来 ,非常看好这个行业前途,楼主加油。
airqj
2023-03-27 12:50:28 +08:00
跟[pyAudioAnalysis]( https://github.com/tyiannak/pyAudioAnalysis)
相对有什么独到之处吗
829939
2023-03-27 13:33:37 +08:00
@ppxiale 感谢
1. 支持的功能比 pyAudioAnalysis 要多一些,支持数十种时频分析变换方法和数百种对应的时域、频域特征组合。
2. 性能高效,核心大部分 C 实现,基于不同平台 FFT 硬件加速,方便大规模数据特征提取。
3. 跨平台,支持移动端音频流实时计算,release 的时候已发布 android ,iOS 平台相关 so 库
governcoco
2023-03-27 13:35:09 +08:00
想请问一下楼主我的一些讲座文件想要做语音增强去噪音有什么办法吗?
829939
2023-03-27 13:35:32 +08:00
@airqj
1. 支持的功能比 pyAudioAnalysis 要多一些,支持数十种时频分析变换方法和数百种对应的时域、频域特征组合。
2. 性能高效,核心大部分 C 实现,基于不同平台 FFT 硬件加速,方便大规模数据特征提取。
3. 跨平台,支持移动端音频流实时计算,release 的时候已发布 android ,iOS 平台相关 so 库
829939
2023-03-27 13:59:58 +08:00
@governcoco

降噪的方法有很多,传统数字信号领域有很多方式,
1. 最简单的一种方式是高通滤波器,你讲课的语音估计低频白噪占一部分,最好再加上 weight-A 计权,有助于提升语音降噪后的质量,当然在不同场景下噪声分布情况,可选择成熟的自适应滤波器也有很多如维纳滤波、卡尔曼等等;
2. 谱减法,这种方法需要估算下噪声的功率谱情况,频域上直接操作,某些场景下效果要好很多;
3. 深度学习相关,这种方式目前发的 paper 不少,语音增强和去噪方面取得了显著的进展,用常见 CNN 或 LSTM 等其他常用网络模型训练,需要对大量数据打标或生成相关场景下不同样本增强数据

大概这么多,希望对你有帮助
airqj
2023-03-27 14:05:43 +08:00
@829939 不错 支持
已 star🐶
liufish
2023-03-27 14:13:12 +08:00
@829939 这个就叫做专业.jpg 👈
829939
2023-03-27 14:15:48 +08:00
@liufish 感谢大佬认可
yzbythesea
2023-03-27 14:34:31 +08:00
你的个人主页差点让我直接拔电源了 lol
StanWang
2023-03-27 14:38:33 +08:00
这个项目和 librosa 有什么不同?
StanWang
2023-03-27 14:39:49 +08:00
已 watch star
829939
2023-03-27 14:45:52 +08:00
@yzbythesea 哈哈 FBI Warning
602120734
2023-03-27 15:01:35 +08:00
@zhengwu119 搞一个 awesome 或 ChatGPT 其他领域相关的包装,估计这段时间上的几率大一些
829939
2023-03-27 15:04:17 +08:00
@StanWang 感谢支持。

首先,librosa 是一个非常好的音频特征库。很多做相关研究的也在用 librosa 做测试。

audioFlux 和 librosa 的区别在于:
1. audioFlux 更适合系统化和多维护特征提取与组合,可以灵活适用于各种研究和分析。
2. audioFlux 更高性能,核心部分全部使用 C 实现。使用 FFT 加速,更适合大规模数据的特征提取。( librosa 全部使用 python 实现)
3. audioFlux 支持移动端,并满足移动端音频流的实时计算。

因为我在做移动端音频 MIR 相关的业务,所以特征提取的操作必须满足跨平台和高性能。

对于模型训练,当时我用 librosa 的方法提取 CQT 相关的特征,处理 10000 个样本数据需要 3 个小时时间!!真的太慢了。

性能比较也再 README 里提到了。在服务器和移动端分别做的测试-如下图




再次感谢支持和关注,有兴趣可以加入到项目里一起做贡献。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/927433

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX