关于语音识别/认证

2013 年 4 月 10 日

AdolfPik

我是个本科的学生，最近在搞一个语音识别认证的项目。
具体内容大概是这样：
通过读取音频的波形文件，进行采样、滤波、FFT这一系列操作，得到声纹，这个声纹就是由一系列的向量构成，然后把这一声纹和之前库中存放的声纹档案进行比对。实现一个语音认证的过程。这个是软件部分。
硬件部分可能要把这个认证系统用在保险箱上，比如你说一句话，保险箱咔哒就开了。这样看起来视觉效果比较唬人。

现在的问题主要在软件部分，就是怎么样对波形进行处理，得到那个数据结构。这部分我想找一些开源的代码改改用。不过不知道用什么好，请问有什么推荐吗？

4822 次点击

所在节点

程序员

11 条回复

echodjb

2013 年 4 月 10 日

你做的不是语音识别、、、是声纹识别吧

run2

2013 年 4 月 10 日

@echodjb 貌似他是想识别特定的密语（芝麻开门？）同时验证声纹。

AdolfPik

2013 年 4 月 10 日

@echodjb 对。大概是。三楼正解。

iicodec

2013 年 4 月 10 日

LZ可以检索下audio hashing/fingerprint这样的关键词

http://echoprint.me/
https://code.google.com/p/musicg/
http://phash.org

至于他们的特征抽取是否能满足你的应用就不好说了，这个得研究算法。
看你的需求是想提取某个人发音的固有特征，这对特征要求就更高了。

保险箱那个。。。还是算了吧。我觉着这类方法抗攻击性都不强（类似人脸识别），伪造比较容易，像你说的，作为附加项，唬人还是可以加点分的。做音乐识别/检索一些应用还是可以的。

B.R.

AdolfPik

2013 年 4 月 10 日

@iicodec 关键词记下了，谢谢！是，伪造确实比较容易，主要就是为了唬人。为了应对可靠性不高的质疑，或者准备把这个作为多因素验证中的某一项。

ljbha007

2013 年 4 月 10 日

@AdolfPik 录音机完破

AdolfPik

2013 年 4 月 10 日

@ljbha007 录音机只能记录到PCM波形啊...需要的是向量式的数据结构不是波形。

sivacohan

2013 年 4 月 11 日

进行fft的时候有一个要点。要设定一个单位能量的基准。可以根据声波的平均能量来进行设定。
这个东西难点在fft这。解决了这个问题之后，就是一堆数字在这比较了。你的需求不算麻烦。
如果用python的话，你一定会用的numpy的。

echodjb

2013 年 4 月 11 日

@AdolfPik 你这是与文本相关的声纹识别

AdolfPik

2013 年 4 月 12 日

@echodjb 不知道算不算和文本相关。机器不需要理解语义的

AdolfPik

2013 年 4 月 12 日

@sivacohan 谢谢。记下了

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/65453

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.