V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
JackalZhao
V2EX  ›  分享创造

Caps Wirter 发布,电脑端最好用的语音输入工具:按住大写锁定键,进行语音识别输入

  •  
  •   JackalZhao · 2020-07-10 17:18:02 +08:00 · 2557 次点击
    这是一个创建于 1357 天前的主题,其中的信息可能已经有所发展或是发生改变。

    Caps Writer

    简介

    一款语音输入工具,后台运行脚本后,按下大写锁定键超过 0.3 秒后,开始语音识别,松开按键之后,自动输入识别结果。

    地址

    Github      Zip 打包下载

    上面打包下载的链接在 V2EX 可能用不了,可以到 我在 Hacpai 的帖子 中查看下载

    开发动机

    我就气抖冷,为什么直到现在,仍然没有开发者做过一个好用的语音输入工具?

    有人建议用搜狗输入法、讯飞输入法的语音输入,但这几个方面是真让人受不了:

    • 广告太多,拒绝安装
    • 我主力五笔,不使用搜狗输入法、讯飞输入法,顶多临时用下微软拼音
    • 就以搜狗输入法为例,它的语音输入快捷键只能是 Ctrl + Shift + A/B/C……,有以下槽点:
      • 这个快捷键会和许多软件的快捷键冲突,且不好记
      • 打字时,按这样三个快捷键,手指很别扭,不爽
      • 它的逻辑是按下快捷键后,启用语音输入,你一停顿一下,要说下一名,语音输入却结束了,不能让用户决定什么时候结束语音输入。

    为了在电脑上语音输入,我之前是用的 Quicker 的手机端进行语音识别,输入到电脑上,需要两个设备,非常麻烦。今天终于做好我心目中最好用的电脑端语音输入工具了!

    描述

    本工具( Caps Writer )是一个电脑端的语音输入工具,使用了阿里云的一句话识别 api

    (有兴趣的可以改成百度、腾讯、讯飞的 api 试试)。

    使用方法很简单:用 python 运行 run.py 后,按下 Caps Lock(也就是大写锁定键)超过 0.3 秒后,就会开始用阿里云的 api 进行语音识别,松开按键后,会将识别结果自动输入。

    对于聊天时候进行快捷输入、写代码时快速加入中文注释非常的方便。

    视频演示

    演示 1

    演示 2

    上面的 mp4 视频链接在 V2EX 可能播放不了,可以到 我在 Hacpai 的帖子 中播放查看

    安装使用

    无需编译,clone 下来将依赖安装上、api 填上就可以用了。

    本工具是一个 python 脚本,依赖于以下模块:

    • keyboard
    • pyaudio
    • configparser
    • aliyunsdkcore
    • alibabacloud-nls-python-sdk

    其中:

    • pyaudio 在 windows 上不是太好安装,可以先到这个链接 下载 pyaudio 对应版本的 whl 文件,再用 pip 安装
    • alibabacloud-nls-python-sdk 不是通过 python 安装,而是通过阿里云官方文档的方法 进行安装。

    另外,需要在 run.py 中填入阿里云拥有 管理智能语音交互( NLS ) 权限的 RAM 访问控制 用户的 accessIDaccessKey 和智能语音交互语音识别项目的 appkey

    做完以上步骤后,只要运行 run.py 就可以用了!

    本文件夹内有一个 安装指南 文件夹,在里面可以找到详细的安装指南,还包括了提前下载的 alibabacloud-nls-python-sdk 和 pyaudio 的 whl 文件。

    后话

    因为作者就是本着凑合能用就可以了的心态做这个工具的,所以图形界面什么的也没做,整个工具单纯就一个脚本,功能也就一个,按住大写锁定键开始语音识别,松开后输入结果。目前作者本人已经很满意。

    欢迎有想法有能力的人将这个工具加以改进,比如加入讯飞、腾讯、百度的语音识别 api,长按 0.3 秒后开始识别时加一个提示等等等等。

    第 1 条附言  ·  2020-07-10 19:39:49 +08:00
    标题的 Caps Writer 写成 Wirter 了,改不了标题,很淦
    第 2 条附言  ·  2020-07-11 07:58:57 +08:00
    更新:进行了一下优化,用 pyinstaller 打包成了一个 exe,windows 用户在 release 界面,下载 exe 运行即可使用。

    不用再复杂地安装依 Python 、依赖就能用了!
    6 条回复    2020-07-21 16:55:28 +08:00
    kele999
        1
    kele999  
       2020-07-10 22:25:28 +08:00
    黑客派牛逼啊
    Themyth
        2
    Themyth  
       2020-07-10 22:34:53 +08:00
    MAC 下自带的语音识别按两下 fn 也挺好用的。
    dioxide
        3
    dioxide  
       2020-07-11 00:56:26 +08:00
    想问: 目前的“语言识别”的实现能达到产品级的只有这些“巨头”的私有 API 么? 可否有开源的轮子?
    cest
        4
    cest  
       2020-07-11 01:00:02 +08:00
    @dioxide #3 需要天量投入
    开源的几个连英语都不行
    laycher
        5
    laycher  
       2020-07-11 01:52:47 +08:00
    果然再怎么用都不如自己做的好。
    果然黑客派!
    666orz
        6
    666orz  
       2020-07-21 16:55:28 +08:00
    试了一下,也没报错,也没有输入……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2708 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 37ms · UTC 15:31 · PVG 23:31 · LAX 08:31 · JFK 11:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.