我做了个 MacOS 语音输入法, ASR 和 LLM 你用自己的 key,真正的按量付费

15 天前
 tianyu1718
市面上的语音输入法,比如某 GLM ,真的是贵且不好用。

索性手搓一个,用最好的 ASR ,接 sota LLM !

用的阿里云百炼 FunASR 中文英文准确率都很高,响应速度刷刷的,很爽;
接的 Openrouter ,如果开启 AI 能力可以自己定义技能,在你语音输入后自动对输入内容进行改写;

⚠️这东西需要你自己去申请 key ,申请两个 key 一百块感觉够用一年了

LLM 对语义的理解强的很,不怕你说的多,就怕你给的信息不全,所以我现在 用 Codex 或者 Claudecode 已经离不开语音输入了,如果你也是 vibecoding 场景,那必须要试试。

如果你是写小说的作者也可以尝试,AI 润色这时候就有用了,把小说基本信息作为指令的一部分,然后让 AI 帮你转写,是可以直接成稿的。

page 这里有更详细的介绍

https://tianyu19920816.github.io/VoiceInputApp/
1177 次点击
所在节点    分享创造
14 条回复
fulln
14 天前
可以接个本地部署的 whisper ,音频模型一般比较小, 再接个免费的 LLM 如小米,
MindMindMax
14 天前
MacOS 内置语音输入,免费
Hilong
14 天前

这个版本检查有问题哦
tianyu1718
14 天前
@fulln 推荐用 sota 模型,警惕沉默成本
二楼那哥们的方案——走内置语音,免费,但效果拉
tianyu1718
14 天前
@MindMindMax 那效果我受不了啊,你试试我这个方案,真的不一样,完全停不下来
tianyu1718
14 天前
@Hilong 已修复,感谢反馈🙏
MindMindMax
14 天前
@tianyu1718 不想花钱,ASR 需求刚性较弱
Hilong
14 天前
@tianyu1718 #6 能支持一下本地的语音模型吗,我本地部署了 whisper
dufu1991
14 天前
由于选择困难症,打开百炼一大堆模型,不知道选择哪个,然后就没心思继续下去了。这些大厂做产品的能不能把我当成傻子,还要我一个一个去了解你这么多模型的各项区别,太高看我了。
tianyu1718
14 天前
@dufu1991 不需要选模型,我都给你选好了,你去申请个 key 填进去就行了,百炼乱七八糟的非常难看
tianyu1718
14 天前
@tianyu1718 妈的,百炼这设计的跟脑残一样,我刚看这哥们说找不到,我寻思去找个 url ,结果我也迷路了
阿里云百炼->API 参考(这里有个指引,点北京或者新加坡)->创建业务空间,创建 API Key


相比于 openrouter ,这就跟吃屎一样,不过这模型确实不错
tianyu1718
14 天前
@Hilong 不知道你本地部署的服务支不支持流式语音识别,源代码我开放了,你直接拉到本地让 AI 帮你扩展试试
dingawm
14 天前
你 vibe 用语音是只在家里吗?在公司或者外面没办法用吧
ahu
13 天前
闪电说,纯本地的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1180309

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX