开发了一个支持上下文感知的语音转文字的输入法客户端 AriaType, 希望能获得大家技术/产品上的一些建议

先放截图看一看效果.

老实说，我觉得 Typeless wisperflow 这样的产品复杂度并不高，虽然体验确实不错，但一个月几十块钱实在觉得不够划算。

如果我自己去购买火山引擎或 DeepSeek 的 API 服务，像我这种高频使用的情况，一个月都不到一杯蜜雪冰城柠檬水。

所以我干脆开发一个。整体的功能架构比较简约，针对中文/英文选择用 SenseVoice 这类模型来提升准确率和速度，其他语言则用 Whisper 模型，不过它的速度会慢一点。在录制过程中，会根据当前激活的窗口做内容识别，把里面的高频词汇提取出来，作为 STT 引擎和润色引擎的上下文信息。

有了这些信息之后，润色过程中，根据用户的工作上下文去做智能语法词汇纠正，准确率会有非常明显的提升。当然，个人的发音标准其实也非常重要，偏离太远了很难再识别回来。

整体的效果我觉得已经很接近商业化的产品了。目前从三月份开始开发到现在，断断续续大概花了十块钱的 STT 和润色 Token 花费，不过整体开发大概花了一千块钱，主要是太烧 Token ，估计有二十亿吧。因为我一直开的是 ralph loop 功能，最近我全量换到了 GPT 5.5 ，确实比之前轻松不少，很多问题和功能设计一点就通，不像之前用 GLM 气得我火冒三丈（智谱觉得我在薅羊毛把我账号封了）。

关于后面的规划：

我想的是，既然能作为语音输入了，那为什么不可以用语音做别的呢？目前正在开发另一个 library ，是一个 computer use 的 SDK ，我希望能在后面让 AriaType 支持语音控制电脑，有点类似于 voice OS.

希望分享出来能和大家一起交流。

关于源码： https://github.com/joe223/AriaType