我花了一个月时间做了一款开源语音输入法 Typeflux，希望让每个人都能用上 Typeless 级别的体验

事情要从一篇产品体验说起。

年初第一次用到 Typeless，被它的效果震惊了。它能把你口语化、零散的表达转换成结构清晰的专业内容，用起来像是给大脑装了个翻译器。但它太贵了——按年订阅每月 12 美金，按月订阅要 30 美金。

当时我就想：能不能做一个自己的版本？

然后花了一个下午让 Codex 给我搭了个基本框架，居然跑起来了。但因为有其它项目在忙，就搁置了。

直到 3 月底，X 上突然涌现了大量关于语音输入法的讨论，闪电说、西瓜说、智谱语音输入法……那个时间节点让我重新把这个项目捡了起来。

其中智谱语音输入法（AutoGLM）的"人设"功能给了我很大启发——能为不同场景配置不同的指令集和写作风格，这个设计被我借鉴到了 Typeflux 的 Persona 系统里。在这里也记一笔致敬，他们是先把这个想法做成成熟产品的人。

最初我以为花一两天就能跑通。结果发现，做一个"能用的原型"和做一个"可以给别人用的产品"之间，差的是一个月的废寝忘食。

到今天，我终于把它发布出来了。

Typeflux 是什么？

一款开源的 macOS 菜单栏语音输入工具。按住快捷键说话，松开就把文字输入到当前任何 App 的光标位置。

但我对它的定位不仅仅是语音输入法。

我希望它成为一款桌面端的语音 Agent——不仅能帮你输入内容，还能改写、润色、基于桌面内容问答，通过语音控制电脑完成工作。Agent 功能目前在 Beta ，还在持续迭代中，但这是我最终想去的方向。

主要功能：

按住快捷键说话，松开自动插入当前光标位置，无需切换窗口
选中文字后用语音指令润色 / 翻译 / 缩写，LLM 直接替换选中内容
STT 支持：Apple Speech 、Whisper API / Groq 、本地模型（ SenseVoice Small / WhisperKit Medium/Large / Qwen3-ASR ）、阿里云实时 ASR / Qwen ASR 、豆包实时 ASR 、Google Cloud Speech 、多模态 LLM 、Typeflux Cloud
LLM 支持：OpenAI 兼容接口（ 15+ 提供商：OpenAI 、Anthropic 、Gemini 、DeepSeek 、Kimi 、Qwen 、Zhipu 、MiniMax 、xAI 、Groq 等）+ Ollama 本地模型
完全本地推理可选（本地语音模型 SenseVoice Small / WhisperKit Medium/Large / Qwen3-ASR + Ollama 本地大模型），不需要任何 API Key ，隐私友好
Persona 系统：为不同场景配置不同的指令集（设计灵感来自智谱语音输入法的人设功能）
历史记录：每次对话存档，可回放音频、重新转录

关于 Typeflux Cloud：

同时上线了 Typeflux Cloud ，提供云端语音和大模型服务。早期测试阶段，目前完全免费。

后续如果推出会员服务，也会定价非常亲民。不想折腾的朋友直接注册账号，开箱即用。

核心功能会一直开源，始终支持你自己配置任意语音模型和大语言模型，这是项目的根本基石，不会改变。

项目地址： https://github.com/mylxsw/typeflux
官方网站： https://typeflux.app

我现在是全职独立开发者（开发的一些好玩儿的东西我会在这里发布，欢迎关注），这个项目也是我目前最重要的方向。欢迎大家试用、提问题、给建议。一起把它做好。

bigdogbigpig

4 月 27 日

https://github.com/yetone/voice-input-src

claude \
--dangerously-skip-permissions \
--output-format=stream-json \
--verbose \
-p "请实现一个 macOS menu-bar 语音输入法应用（ Swift ，macOS 14+），具体要求：

1. 按住 Fn 键录音，松开后将转录文字注入当前聚焦的输入框。优先使用流式转录（ Apple Speech Recognition framework ）。Fn 键通过 CGEvent tap 全局监听，需抑制 Fn 事件传递以防止触发 emoji 选择器。
2. 默认语言必须为简体中文（ zh-CN ），确保开箱即用就能识别中文输入。同时在菜单栏提供语言切换选项（英语、简体中文、繁体中文、日语、韩语）。语言选择存储在 UserDefaults 中。
3. 录音时在屏幕底部居中显示一个特别优雅精致的无边框胶囊状悬浮窗，不要有红绿灯和 titlebar 。使用 NSPanel （ nonactivatingPanel ）+ NSVisualEffectView （.hudWindow 材质），高度足够（ 56px ，圆角半径 28px ），包含：
- 左侧 5 根竖条波形动画（ 44×32px ），必须由实时音频 RMS 电平驱动（不要用写死的假动画），说话声音大波形就大、安静时波形就小。各竖条权重为 [0.5, 0.8, 1.0, 0.75, 0.55] 形成自然的中间高两侧低效果，平滑包络（ attack 40%、release 15%），每根竖条添加 ±4% 随机抖动增加有机感。波形要足够大，清晰可见。
- 右侧文字标签（弹性宽度 160-560px ）实时显示转录文本，胶囊随文字变多而弹性变宽
- 入场弹簧动画（ 0.35s ）、文字宽度平滑过渡（ 0.25s ）、退场缩放动画（ 0.22s ）
4. 文字注入使用剪贴板 + 模拟 Cmd+V 粘贴方式，注入前需检测当前输入法：如果是 CJK 输入法，先临时切换到 ASCII 输入源（ ABC/US 键盘）再粘贴，粘贴完成后恢复原输入法，防止中文输入法拦截 Cmd+V 。注入完成后恢复原剪贴板内容。
5. 接入 LLM 来提升语音识别的准确率，尤其是中英文混杂的情况下。通过 OpenAI 兼容 API （可配置 API Base URL 、API Key 、Model ）对转录文本进行 refine 。LLM 的 system prompt 要求非常保守地纠错：只修复明显的语音识别错误（如中文谐音错误、英文技术术语被错误转为中文如「配森」→「 Python 」、「杰森」→「 JSON 」），绝对不要改写、润色或删除任何看起来正确的内容，如果输入看起来正确则必须原样返回。
6. 在菜单栏提供 LLM Refinement 子菜单，包含启用/禁用开关和 Settings 入口。Settings 窗口包含 API Base URL 、API Key 、Model 三个输入框，API Key 输入框要能完全清空，以及 Test 和 Save 按钮。松开 Fn 键后如果 LLM 已启用且已配置，悬浮窗显示 Refining... 状态，等 LLM 返回后再注入最终文本。
7. 应用以 LSUIElement 模式运行（仅菜单栏图标，无 Dock 图标）。使用 Swift Package Manager 构建，提供 Makefile （ build/run/install/clean ），构建产物为签名的 .app bundle 。"