开发了一个支持上下文感知的语音转文字的输入法客户端 AriaType, 希望能获得大家技术/产品上的一些建议

2 小时 41 分钟前
 joe223

先放截图看一看效果.

老实说,我觉得 Typeless wisperflow 这样的产品复杂度并不高,虽然体验确实不错,但一个月几十块钱实在觉得不够划算。

如果我自己去购买火山引擎或 DeepSeek 的 API 服务,像我这种高频使用的情况,一个月都不到一杯蜜雪冰城柠檬水。

所以我干脆开发一个。整体的功能架构比较简约,针对中文/英文选择用 SenseVoice 这类模型来提升准确率和速度,其他语言则用 Whisper 模型,不过它的速度会慢一点。在录制过程中,会根据当前激活的窗口做内容识别,把里面的高频词汇提取出来,作为 STT 引擎和润色引擎的上下文信息。

有了这些信息之后,润色过程中,根据用户的工作上下文去做智能语法词汇纠正,准确率会有非常明显的提升。当然,个人的发音标准其实也非常重要,偏离太远了很难再识别回来。

整体的效果我觉得已经很接近商业化的产品了。目前从三月份开始开发到现在,断断续续大概花了十块钱的 STT 和润色 Token 花费,不过整体开发大概花了一千块钱,主要是太烧 Token ,估计有二十亿吧。因为我一直开的是 ralph loop 功能,最近我全量换到了 GPT 5.5 ,确实比之前轻松不少,很多问题和功能设计一点就通,不像之前用 GLM 气得我火冒三丈(智谱觉得我在薅羊毛把我账号封了)。

关于后面的规划:

我想的是,既然能作为语音输入了,那为什么不可以用语音做别的呢?目前正在开发另一个 library ,是一个 computer use 的 SDK ,我希望能在后面让 AriaType 支持语音控制电脑,有点类似于 voice OS.

希望分享出来能和大家一起交流。

关于源码: https://github.com/joe223/AriaType

116 次点击
所在节点    分享创造
1 条回复
joe223
2 小时 39 分钟前
不好意思,v0.5.1 有点 bug ,等我开完会重新 build 一个 0.5.2

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1212084

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX