开发了个本地实时字幕 (Whisper + LLM api ) 软件,开源

180 天前
 xkeyC

仓库地址: https://github.com/xkeyC/fl_caption

下载地址: https://github.com/xkeyC/fl_caption/releases

使用 Flutter + Rust (candle 推理框架)

目前仅支持 Windows 端,建议使用 Nvidia 显卡配合 cuda 加速。 实时字幕对延迟要求比较高,建议使用 ollama 、vllm 、llm studio 等本地 llm api ,云端若延迟比较低也可以考虑(比较费钱)。

目前仅在 RTX4090 上测试 large-v3_q4k 模型,12 秒的语音数据 基本在 1 秒内处理完毕。配合 14b 模型,显存占用大约是 16.3 GB ,低于此显存的建议选择更小的 llm 模型。

1343 次点击
所在节点    Local LLM
2 条回复
hoseynwn
178 天前
你好,我也想实现识别所有电脑播放的语音到文字.请问我运行后还需要配置什么吗?whisper 的模型下载了 largev3q4k 的了,保存设置后提示 wait for whisper 和 not notconfig llm.
xkeyC
178 天前
@hoseynwn 见首页 README 里的常见问题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1118657

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX