有日语识别准确率类似 sonix.ai 的转写服务吗?

2022-12-20 00:52:56 +08:00
 edis0n0
google 那个是真的垃圾,一大段一大段地漏
sonix 这个准确率还不错就是太贵了(真不是广告,开了好多年的美国公司,google 搜索结果前 10 个全测下来就这个能用),开每月 22 刀的会员后每小时还要 5 刀,随便转 20 小时音频就要 122 刀了
虽然可以通过临时邮箱注册来无限白嫖但感觉这样做不好
1300 次点击
所在节点    程序员
9 条回复
zcf0508
2022-12-20 13:11:34 +08:00
https://github.com/openai/whisper

whisper japanese.wav --language Japanese
edis0n0
2022-12-20 14:54:09 +08:00
@zcf0508 #1 测试了一下这个识别率连 google 的 60%都没有
edis0n0
2022-12-20 15:06:12 +08:00
@zcf0508 #1 google 能准确识别的一段话它识别成了这样
kuantingchen
2022-12-21 09:53:15 +08:00
edis0n0
2022-12-21 12:28:21 +08:00
@kuantingchen #4 和 google 那个识别率差不多,和 sonix 这个差的还是有点远
js8510
2022-12-21 15:27:12 +08:00
我自己尝试在 AWS 上搭建了一个类似的服务。后来由于成本太高,准确率太差,没有盈利的可能。并没有投入运营。我用脱口秀大会口音比较重的一些选手做输入,准确率只有~70%。 如果是用 CCTV 的节目专业播音员的视频,准确率也就能到 95%。

很好奇,你觉得怎样的收费算合理呢? 另外,我知道 https://www.descript.com/pricing 做的很好用,他们收费很低了。反正我觉得全跑在 AWS 上我做不到这么低的价格又这么多功能
edis0n0
2022-12-22 02:00:40 +08:00
@js8510 我觉得能在存在公共场所背景杂音时保持 75%识别率,收费 1~2 美元 /小时比较合理,但我实测即使是 sonix 这个日语+存在公共场所背景杂音准确率也只有 65%左右,远比不上人工
js8510
2022-12-23 14:00:00 +08:00
@edis0n0 1-2 美元 确实目前很难做到。。AWS transcribe 大概是$1.5 一小时的收费。阿里云是$1/h 。 另外处理视频 S3 的开销还有做 audio file encoding/decoding 的 cost, domain name 还有 stripe 的抽成,信用卡抽成,最终成本至少 3 到$5
edis0n0
2022-12-23 14:06:26 +08:00
@js8510 #8 我说的就是每小时 1-2 美元,就是目前这些服务准确率都实在太低了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/903614

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX