这个小项目，上周被国外 AI 新闻网站报道，前些天又上了 github 热榜

ppxiale

2023-03-27 11:51:31 +08:00

大致看了下项目，很好奇是哪些周报博主？对这个“小项目”有些眼拙啊

collinmehle

2023-03-27 11:59:51 +08:00

@ppxiale 我已经关注过，虽然水平一般，但眼不拙

fanjk

2023-03-27 12:02:32 +08:00

@ppxiale 已 star,眼不拙

zhengwu119

2023-03-27 12:09:19 +08:00

怎么样才能上 github 热榜，传授下经验☺️

829939

2023-03-27 12:14:59 +08:00

@zhengwu119 我这边真的没有什么经验，能上估计全靠运气。

ppxiale

2023-03-27 12:46:48 +08:00

@829939 我认为 ChatGPT 出来之后，文本方面的只能才算是一个突破，音频处理、视频处理目前都还是未知领域，相信在不久的将来，语音和视频方面也能够有这种产品出来，非常看好这个行业前途，楼主加油。

airqj

2023-03-27 12:50:28 +08:00

跟[pyAudioAnalysis]( https://github.com/tyiannak/pyAudioAnalysis)
相对有什么独到之处吗

829939

2023-03-27 13:33:37 +08:00

@ppxiale 感谢
1. 支持的功能比 pyAudioAnalysis 要多一些，支持数十种时频分析变换方法和数百种对应的时域、频域特征组合。
2. 性能高效，核心大部分 C 实现，基于不同平台 FFT 硬件加速，方便大规模数据特征提取。
3. 跨平台，支持移动端音频流实时计算，release 的时候已发布 android ，iOS 平台相关 so 库

governcoco

2023-03-27 13:35:09 +08:00

想请问一下楼主我的一些讲座文件想要做语音增强去噪音有什么办法吗？

829939

2023-03-27 13:35:32 +08:00

@airqj
1. 支持的功能比 pyAudioAnalysis 要多一些，支持数十种时频分析变换方法和数百种对应的时域、频域特征组合。
2. 性能高效，核心大部分 C 实现，基于不同平台 FFT 硬件加速，方便大规模数据特征提取。
3. 跨平台，支持移动端音频流实时计算，release 的时候已发布 android ，iOS 平台相关 so 库

829939

2023-03-27 13:59:58 +08:00

@governcoco

降噪的方法有很多，传统数字信号领域有很多方式，
1. 最简单的一种方式是高通滤波器，你讲课的语音估计低频白噪占一部分，最好再加上 weight-A 计权，有助于提升语音降噪后的质量，当然在不同场景下噪声分布情况，可选择成熟的自适应滤波器也有很多如维纳滤波、卡尔曼等等；
2. 谱减法，这种方法需要估算下噪声的功率谱情况，频域上直接操作，某些场景下效果要好很多；
3. 深度学习相关，这种方式目前发的 paper 不少，语音增强和去噪方面取得了显著的进展，用常见 CNN 或 LSTM 等其他常用网络模型训练，需要对大量数据打标或生成相关场景下不同样本增强数据

大概这么多，希望对你有帮助

airqj

2023-03-27 14:05:43 +08:00

@829939 不错支持
已 star🐶

liufish

2023-03-27 14:13:12 +08:00

@829939 这个就叫做专业.jpg 👈

829939

2023-03-27 14:15:48 +08:00

@liufish 感谢大佬认可

yzbythesea

2023-03-27 14:34:31 +08:00

你的个人主页差点让我直接拔电源了 lol

StanWang

2023-03-27 14:38:33 +08:00

这个项目和 librosa 有什么不同？

StanWang

2023-03-27 14:39:49 +08:00

已 watch star

829939

2023-03-27 14:45:52 +08:00

@yzbythesea 哈哈 FBI Warning

602120734

2023-03-27 15:01:35 +08:00

@zhengwu119 搞一个 awesome 或 ChatGPT 其他领域相关的包装，估计这段时间上的几率大一些

829939

2023-03-27 15:04:17 +08:00

@StanWang 感谢支持。

首先，librosa 是一个非常好的音频特征库。很多做相关研究的也在用 librosa 做测试。

audioFlux 和 librosa 的区别在于：
1. audioFlux 更适合系统化和多维护特征提取与组合，可以灵活适用于各种研究和分析。
2. audioFlux 更高性能，核心部分全部使用 C 实现。使用 FFT 加速，更适合大规模数据的特征提取。（ librosa 全部使用 python 实现）
3. audioFlux 支持移动端，并满足移动端音频流的实时计算。

因为我在做移动端音频 MIR 相关的业务，所以特征提取的操作必须满足跨平台和高性能。

对于模型训练，当时我用 librosa 的方法提取 CQT 相关的特征，处理 10000 个样本数据需要 3 个小时时间！！真的太慢了。

性能比较也再 README 里提到了。在服务器和移动端分别做的测试-如下图

再次感谢支持和关注，有兴趣可以加入到项目里一起做贡献。