请教如何做一个在线口译系统

359 天前
 arkerdota

请教一下各位大佬,一位老同学做科研找上门来合作项目,想做一个在线的口译训练系统。

前端需要能够识别 演讲者的语言(耳机),学生的语言(麦克风),还需要实时翻译成目标语言(中英文)。

对这块真的不是很熟悉,请教一下大家怎么实现,或者有没有相关的学习资料。

如果有现成的 demo 可以参考就更好了了。

谢谢大家。

1621 次点击
所在节点    程序员
15 条回复
paradox8599
359 天前
昨晚正好在看这个,但只是游戏社交用:

https://nmori.github.io/yncneo-Docs/

https://github.com/VRCWizard/TTS-Voice-Wizard
superliy
359 天前
用 chatgpt ?
ruanimal
359 天前
语音转文字,然后调用 chatgpt ?
rsy
359 天前
用现成的音频转写翻译服务就可以了
https://sight.youdao.com/service/voice
Alias4ck
359 天前
stt 服务,openai 的 whisper( https://github.com/openai/whisper),在官方 github 的 discussion 里面有很多相关的 application(huggingface 上面也有很多),还有可以在 cpu 上跑的比如 这个 https://github.com/ggerganov/whisper.cpp
它的 examples 里面有 https://whisper.ggerganov.com/stream/, 实时翻译的 wasm 应用
我看一楼给的最后一个项目也是基于 c#的 whisper wrapper
janus77
359 天前
TTS ,然后接个翻译 api
metalvest
359 天前
上面说的都是很成熟的技术了,但要形成产品还不够,因为这个系统的重点在于训练,关键是要建库塞一堆课程,然后根据学生的成绩制定训练和学习计划,然后搞个收费标准。
lff0305
359 天前
公司做过类似的,不算复杂
前端调用 API 从麦克风采集音频,拿到音频以二进制形式通过 Web socket 发到后端,后端拿到之后把音频数据发给 ASR 把音频转换成文字,然后就是处理文字,比如翻译之类的

最后把处理过的结果通过 tts 转换成音频数据,从 Web socket 返回,

前端拿到音频数据后播放

Asr tts 主流的云厂商都有提供
wangtian2020
359 天前
win11 马上会加入一个实时字幕 Live Captions 功能
fionasit007
359 天前
科大讯飞不就是做这个的吗,实时口译,之前星火发布会的时候下面的双语字母不就是实时翻译的吗
wumoumou
359 天前
chatgpt 支持语音转文字,如果选择英文输出,直接会帮你翻译
humbass
359 天前
可以直接做一对一的接口,延时在 500 毫秒以内
fox
359 天前
可以看看北语韩老师的科研项目 paratrans ,算是非常解决了业内(翻译学生)痛点的一个服务。
https://paratrans.vip/login.php
fox
359 天前
然后 讯飞新发布的产品好像有类似的应用?还没试过,不是很清楚
czhh
355 天前
蹲一波

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/939121

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX