这个小项目，上周被国外 AI 新闻网站报道，前些天又上了 github 热榜

dark009

2023-03-28 10:01:26 +08:00

我想做一个吉他调音器的功能，不知道这个项目是否支持？

stonepy

2023-03-28 10:10:29 +08:00

请教下大佬，要做一个类似识别语音“上、下、左、右”这种固定几个语音指令的识别，我该如何入手？

829939

2023-03-28 10:16:13 +08:00

@dark009
完全没问题，项目中 MIR 模块中有几个不同 pitch 侦测的算法，根据你的业务情况做多做下测试调参，结合上层业务情况的优化应该能出一个不错的效果。

829939

2023-03-28 10:17:19 +08:00

@stonepy
这个业务属于 ASR 领域孤立词识别，可以用 i-vector 相关技术，基于 PCA 的特征向量比对也可以尝试，还可以拿 MFCC 、mel 频谱这些特征，作为 CNN 和 RNN 网络进行训练分类，当然前面的这些特征合理归一化后也可以尝试打标签走网络分类训练，希望这些对你有所启发和帮助。

stonepy

2023-03-28 10:21:22 +08:00

@829939 感谢大佬给思路，我去尝试一下，有问题再向大佬请教～

xbcslzy

2023-03-28 10:45:42 +08:00

@829939 大佬了解拇指琴这个乐器吗，想做一个这个乐器的调音器，目前试了一些开源的算法效果都不理想，有哪些建议？

829939

2023-03-28 10:50:09 +08:00

@xbcslzy 不太了解这个乐器，请问都用了开源哪些算法，这个乐器的音域大概多少？

CMLab

2023-03-28 10:51:32 +08:00

@829939 能否出一个 C 语言 command line 版本，一些业务上会非常方便？

heywin

2023-03-28 10:57:32 +08:00

二话不说直接 star 助你一臂之力

829939

2023-03-28 11:06:02 +08:00

@CMLab 感谢建议，上面己有用户提出过，规划近期推出强大的命令行工具版本。

829939

2023-03-28 11:08:00 +08:00

@heywin 就喜欢哥们这样的爽快人真帅

CMLab

2023-03-28 11:08:53 +08:00

@829939 非常期待，出来后论坛里可以发个消息

YZZS

2023-03-28 11:14:39 +08:00

支持一下大佬

602120734

2023-03-28 11:43:37 +08:00

支持下大佬，pip 安装试了下，效果可以的，就是好像清华节点还没有最新版本的包？我安装的还是 0.1.3 版本

829939

2023-03-28 11:59:56 +08:00

@602120734 清华镜像目前看起来同步的比较慢，请先使用官方源或者阿里镜像。

butterls

2023-03-28 12:58:26 +08:00

@829939 需求简单说是希望通过音频数据生成基础触感数据，然后驱动马达振动特定幅度频率

音频数据我现在是简单做了二分
1. 音乐类相对有规律，而且现有的节拍检测等方法有理论支撑，相对生成的振动效果比较好，但是对于节奏不明显的和声部分就会比较拉胯（这时候振动有点类似驱动了一个特殊的喇叭声道，但是和声分量即使设定阈值过滤一直振会很抢戏，主要还是缺少特点意义的检测，而且也不是所有音乐都很有节奏感）

2. 对于普通的声音，比如游戏场景中的随机枪声，按钮模拟，脚步等等这类的规律性不强的音频生成振动纹理，单纯用能量特征检测处理出来就很奇怪，相比音乐类，匹配出来的的振感就很差

因为对音频特征提取这部分确实了解的不深，所以想问问看大佬对这种非规律音频特征处理有没有什么思路，另外就是音频感知范围和振动区间（ 50-500HZ ）差异还是蛮大，直接做两种信号的范围映射后再处理是不是会更奇怪

829939

2023-03-28 14:00:58 +08:00

@butterls 1. “希望通过音频数据生成基础触感数据”，音频有很多特征数据可以驱动马达，如果要求是特定强度的频率震动跟随音乐鼓点的话，端点和当前范围内功率谱就可以，是否类似音乐播放可视化震动这种效果？

2. “非规律音频” 有很多，如你所说枪声，脚步这些的区分，时域上典型的有包络，频域上有频谱、mfcc 等，如果短时突变信号多的话，可以用 CWT ，至于如何映射，这个具体和你的业务测试情况相关了，可以尝试常见的 mel/bark/erb 这些听觉刻度模型映射测验小效果。

dark009

2023-03-28 14:04:24 +08:00

@829939 谢谢帮忙分析，已 star

beneo

2023-03-28 14:09:04 +08:00

readme 里面的图怎么画的啊

stanwanng

2023-03-28 14:14:48 +08:00

ECG(人体心电图)信号进行分类，大致有三种类型数据，NSR(正常)，ARR(失长)、CHF(衰竭)这三种，这块做深度学习训练分类的话用什么特征作为输入好？不知道 ECG 信号是否同样可用你项目中 audio 的特征?