现阶段最优的语音转文本,文本转语音的方案是不是这两个呀

53 天前
 momomoi

GPT-SoVITS + FunASR 本地化部署、支持中英文、调研了下 最优组合了吧

3040 次点击
所在节点    程序员
23 条回复
tommyshelbyV2
53 天前
生产环境下不是
zoharSoul
53 天前
并发能支持多少呀?
momomoi
53 天前
@zoharSoul 我在确认最优方案啊
zoharSoul
53 天前
@momomoi #3 我就是问问这个方案性能怎么样呀
tool2dx
53 天前
"最优的语音转文本"

我自己测试下来,识别率最高的是多模态的 gemini 2.5 pro. 因为是思考模型, 不能实时语音录入, 但识别率很高.
chesha1
53 天前
GPT-SoVITS 疑似是有点古老了,可以看看 fish-speech 1.5 ,CosyVoice 3
Suinn
53 天前
@chesha1 CosyVoice 3 好像还没开源┭┮﹏┭┮
cq65617875
53 天前
funasr 那个识别率……
humbass
53 天前
funasr 在开源项目里头算可以的了
只是没有找到合适的 tts ,SoVITS 是否支持 websocket ?@ momomoi
w568w
53 天前
借楼问问现在识别率最高、延迟最低的本地部署语言转文字系统是什么?
hmxxmh
53 天前
gpt-sovits 是搞声音克隆比较好吧,魔搭上面 CosyVoice 比较火,也可以看看 chattts
312ybj
53 天前
k2 whisper 也能做本地部署。asr 还要看音频前端算法,这个对 wer 的影响很大, 能看到的商用音频接口,肯定做了音频前端处理
Aixtuz
53 天前
用过 CosyVoice2.0 的 Demo ,感觉效果挺好的。
就是多音字和断句,偶尔有点问题。
Aixtuz
53 天前
语音转文本的话,用过通义听悟,个人用用签到送的量就差不多了。
除了人名和特殊名词以外的部分,准确率挺高了。而且比较方便点到哪、播到哪的校对。
jadeborner
53 天前
跟 minimax 比怎么样
Oats
53 天前
tts 的话 indextts 个人感觉不错
cccssss
53 天前
铜币送上,学习了
hurrytospring
53 天前
线上服务有比较好的吗
chenzi0103
53 天前
可以看下我写的 实现了你说的 而且识别率和播放都还可以
https://github.com/chengzi0103/SoulSpeak

用的是 funasr + cosyvoice2
momomoi
52 天前
@chenzi0103 好的 感谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1145480

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX