现阶段最优的语音转文本,文本转语音的方案是不是这两个呀

2025 年 7 月 16 日
 momomoi

GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下 最优组合了吧

4210 次点击
所在节点    程序员
23 条回复
tommyshelbyV2
2025 年 7 月 16 日
生产环境下不是
zoharSoul
2025 年 7 月 16 日
并发能支持多少呀?
momomoi
2025 年 7 月 16 日
@zoharSoul 我在确认最优方案啊
zoharSoul
2025 年 7 月 16 日
@momomoi #3 我就是问问这个方案性能怎么样呀
tool2dx
2025 年 7 月 16 日
"最优的语音转文本"

我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高.
FlashEcho
2025 年 7 月 16 日
GPT-SoVITS 疑似是有点古老了,可以看看 fish-speech 1.5 ,CosyVoice 3
Suinn
2025 年 7 月 16 日
@chesha1 CosyVoice 3 好像还没开源┭┮﹏┭┮
cq65617875
2025 年 7 月 16 日
funasr 那个识别率……
humbass
2025 年 7 月 16 日
funasr 在开源项目里头算可以的了
只是没有找到合适的 tts ,SoVITS 是否支持 websocket ?@ momomoi
w568w
2025 年 7 月 16 日
借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么?
hmxxmh
2025 年 7 月 16 日
gpt-sovits 是搞声音克隆比较好吧,魔搭上面 CosyVoice 比较火,也可以看看 chattts
312ybj
2025 年 7 月 16 日
k2 whisper 也能做本地部署。asr 还要看音频前端算法,这个对 wer 的影响很大, 能看到的商用音频接口,肯定做了音频前端处理
Aixtuz
2025 年 7 月 16 日
用过 CosyVoice2.0 的 Demo ,感觉效果挺好的。
就是多音字和断句,偶尔有点问题。
Aixtuz
2025 年 7 月 16 日
语音转文本的话,用过通义听悟,个人用用签到送的量就差不多了。
除了人名和特殊名词以外的部分,准确率挺高了。而且比较方便点到哪、播到哪的校对。
jadeborner
2025 年 7 月 16 日
跟 minimax 比怎么样
Oats
2025 年 7 月 16 日
tts 的话 indextts 个人感觉不错
cccssss
2025 年 7 月 16 日
铜币送上,学习了
hurrytospring
2025 年 7 月 16 日
线上服务有比较好的吗
chenzi0103
2025 年 7 月 16 日
可以看下我写的 实现了你说的 而且识别率和播放都还可以
https://github.com/chengzi0103/SoulSpeak

用的是 funasr + cosyvoice2
momomoi
2025 年 7 月 16 日
@chenzi0103 好的 感谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1145480

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX