现阶段最优的语音转文本，文本转语音的方案是不是这两个呀

tommyshelbyV2

2025 年 7 月 16 日

生产环境下不是

zoharSoul

2025 年 7 月 16 日

并发能支持多少呀?

momomoi

2025 年 7 月 16 日

@zoharSoul 我在确认最优方案啊

zoharSoul

2025 年 7 月 16 日

@momomoi #3 我就是问问这个方案性能怎么样呀

tool2dx

2025 年 7 月 16 日

"最优的语音转文本"

我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高.

FlashEcho

2025 年 7 月 16 日

GPT-SoVITS 疑似是有点古老了，可以看看 fish-speech 1.5 ，CosyVoice 3

Suinn

2025 年 7 月 16 日

@chesha1 CosyVoice 3 好像还没开源┭┮﹏┭┮

cq65617875

2025 年 7 月 16 日

funasr 那个识别率……

humbass

2025 年 7 月 16 日

funasr 在开源项目里头算可以的了
只是没有找到合适的 tts ，SoVITS 是否支持 websocket ？@ momomoi

w568w

2025 年 7 月 16 日

借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么？

hmxxmh

2025 年 7 月 16 日

gpt-sovits 是搞声音克隆比较好吧，魔搭上面 CosyVoice 比较火，也可以看看 chattts

312ybj

2025 年 7 月 16 日

k2 whisper 也能做本地部署。asr 还要看音频前端算法，这个对 wer 的影响很大，能看到的商用音频接口，肯定做了音频前端处理

Aixtuz

2025 年 7 月 16 日

用过 CosyVoice2.0 的 Demo ，感觉效果挺好的。
就是多音字和断句，偶尔有点问题。

Aixtuz

2025 年 7 月 16 日

语音转文本的话，用过通义听悟，个人用用签到送的量就差不多了。
除了人名和特殊名词以外的部分，准确率挺高了。而且比较方便点到哪、播到哪的校对。

jadeborner

2025 年 7 月 16 日

跟 minimax 比怎么样

Oats

2025 年 7 月 16 日

tts 的话 indextts 个人感觉不错

cccssss

2025 年 7 月 16 日

铜币送上，学习了

hurrytospring

2025 年 7 月 16 日

线上服务有比较好的吗

chenzi0103

2025 年 7 月 16 日

可以看下我写的实现了你说的而且识别率和播放都还可以
https://github.com/chengzi0103/SoulSpeak

用的是 funasr + cosyvoice2

momomoi

2025 年 7 月 16 日

@chenzi0103 好的感谢