https://github.com/liangjingyang/voice_kit前段时间脑袋一热, 动手试了试. 自己做了一个. 正如 @
SuperMild #53 楼说的那样, 想实现的只是一个辅助工具.
遇到的问题及思考 ( 还未动手尝试 ) :
1. 这种工具要用顺, 用来连接 语音识别结果 ( 文本 ) 和 执行的操作 ( 命令 ) 的中间层很重要, 其实就相当于一套适合的 api.
2. 语音 -> 文本的准确率的问题, 想到一个优化的方法: 因为每个人的口音都不太一样, 在使用工具之前, 给一篇涵盖语素相对比较全面的文章让使用者朗读, 构建一个个人语素对标准语素(比如普通话)的映射关系, 用来辅助提高识别的准确率. 但对语音识别了解不多, 不知道可行性如何.
3. 我这个项目比较简单粗暴, 语音识别是用的手机某厂的语音识别 sdk 的 Demo 改的 lol, 所以相当于有 3 个端, 云端, app, 电脑. 除了识别准确率之外, 反应速度也不满意, 操作之间需要停顿. 如果真要用的爽, 要把三端合一, 并且 1 中的中间层定义的要简短.