最近想做写儿童睡前故事相关视频或者绘本,图片搞定了,需要文本转语音,尝试了一些方案感觉效果都一般般,刚好最近 mimo-v2-tts 免费用,就在 miclaw 里面生成了一段龟兔赛跑的语音,效果竟然还不错,对比剪映、edge-tts 感觉效果还要好一些,就是有时候风格控制的不够准确,如果后续支持克隆音色就好了。 官方提供 OpenAI / Anthropic 格式 api 调用,撸了个简单的 ui 界面,大家有需要的可以试试。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.