分享自己参加 Y Combinator 的创业产品 - AI 沉浸式翻译的视频会议平台 Pinch

210 天前
 cky951113
开工大吉,今天想和社区分享一个我们正在参加 YC25 年冬季孵化营的沉浸式翻译视频会议产品 https://startpinch.com

--------------------------
一句话介绍
Pinch 是一个基于 AI 语音和视频生成技术,提供沉浸式翻译,支持 20+语言,能够让不同国家的人无需通过字幕进行跨语言交流的视频会议平台。

--------------------------
怎么用
免费公测(完全白嫖),直接前往我们的网站 https://startpinch.com 就可以体验 “单人 demo+创建多人会议(目前 1v1 效果最佳)+分享链接给朋友”。
时间紧迫,我们这次发布甚至没有加上 login wall 。非常感谢如果您愿意在体验后花上一分钟为我们撰写一些反馈!

--------------------------
背景 (为什么要做这个)
我是一个有 3 年工作经验的 AI 研究员/工程师,在此之前,我和创业搭档一起在一家硅谷的 AI 初创公司领导一个跨国的 AI 团队。我们招聘了不少来自国内的优秀工程师,但是发现受限于大家的英语/韩语/汉语水平不同,团队沟通始终是一个挑战。
在国际化远程工作越来越普遍的当下,我们相信全世界同样还有很多因为语言障碍限制而无法充分发挥专业才能的人,比如工程师,外贸销售,特定领域的咨询(法律,移民,医疗,教育,新闻等等)

我们希望为自己的团队和其他类似的朋友打造一个可以跨语言实时沟通的视频会议产品。

--------------------------
内容(我们做出来了什么)
在开源视频通信方案基础上,我们自建了一套视频会议系统。所有参会者在云端都拥有一个专属的语音翻译 agent ,调用 AI 语音工作栈,实现低延迟的跨语言翻译和 TTS 合成。通过前端和语音翻译 agent 的通信,把说话人的语音和视频进行二次同步,确保接收端在 1-3s 内能够听到/看到说话人经过 agent 翻译后的音视频。


--------------------------
无偿交流/在线 coffe chat (欢迎私聊我的小红书/领英)
如果你对创业感兴趣;
如果你也有一个“Make something people want”的 idea ;
如果你打算尝试通过创业孵化营的形式开始你的创业,包括硅谷的 YC ,Plug and Play ,HF0 / 国内的奇绩创坛等等;

欢迎私聊,可以内推:)
我的小红书 ID:626049781
我的领英 Profile: https://www.linkedin.com/in/keyu-chen-3a3026143
2653 次点击
所在节点    分享创造
25 条回复
cky951113
210 天前
demo 链接 -> <amp-youtube data-videoid="Cu7KlbZ3gjw" layout="responsive" width="480" height="270"></amp-youtube>
vishun
210 天前
感觉挺厉害的。
还要选择要转换的目标语言吗?如果有多个不同国家的,例如,中、英、俄,我选择转换成英文,那俄罗斯同样听不懂啊,我还以为是根据参会者所选自己的语言来自动都转换呢。
clhcowboy
210 天前
体验超棒
cky951113
210 天前
@vishun 感谢!目前还是需要参会者自己指定原语言和目标语言的,所以 1v1 效果更佳。 我们正在做多人/多语言会议的方案,主要的难点是要解决多个 agent 的性能和进程冲突问题。 理想情况下,下一个版本,用户只需要指定“我想说什么语言”以及“我想听什么语言”就行了。
lawted
210 天前
很有意思,但是介绍视频上没体现有多实时的样子
R4rvZ6agNVWr56V0
210 天前
有点意思
BeijingBaby
210 天前
这个体验、场景来看都很不错。
类似那种即时对话翻译器,这个用户会议场景感觉挺棒的。
gpt5
210 天前
有一个大问题:对公司来说,更换视频会议平台的迁移成本太高了。
cky951113
210 天前
@gpt5 非常对,我们产品的商业计划不是和现有的视频会议平台竞争( Zoom, Google Meet, Microsoft Meet, 腾讯会议)。事实上,我们产品的目标人群正是那些无法通过现有视频会议方案达到需求(语音翻译,沉浸沟通)的人群,所以理论上这些人/公司不需要迁移。
当然,我们把虚拟摄像头(或者浏览器插件)也列入我们接下来的工作计划中了。不过从技术角度而言,由于各个平台的接口开放程度不一样,为了实现最优的延迟和音视频同步,自建平台的体验依然是最优的。
AmoreLee
210 天前
看起来不错,或许以后可以直接用说话人本身的音色?
cky951113
210 天前
@AmoreLee 是的!下一步是添加个性化音色,然后是端到端音频翻译模型(可以保留说话人的语气和咳嗽笑声这类信息)
javaluo
210 天前
感觉不错,不过这种很容易被大厂竞争? 比如 Google meeting 之类的
可以考虑看看从哪一个细分场景切入,把这里面的体验和问题做好增强壁垒,可以在有风险的时候保住基本盘
Donaldo
210 天前
这个需求相当有力,但我还是觉得做成插件会好一些,不过现在的大型平台是不是没有提供插件接口?或许虚拟 mic 和 cam 是个思路,希望有后续!
DICK23
210 天前
遇到 connection error ,设备已经授权了
xmsz
209 天前
我在国内,一直有个疑问,就是对于像 lz 这样的产品为什么可以存在?

比如解决会议实时翻译的需求,这个对于现有的会议软件如 Zoom/飞书来说就是一个很简单的功能
飞书已经有了,zoom 现在没有未来也会有

一但这些会议软件有个这个功能,那不就算创业失败了?

除非在 AI 翻译的能力和调教上有一定研究,否则不过是一个排期+一个程序员一个下午的活而已

所以,我一直很好奇,像这样「短期功能性」的产品为什么会去做?

是不是有别的原因?比如是用来磨练能力?技术?团队?还是说真的可以有不错的解决方案,然后大公司愿意直接买断?
cky951113
209 天前
@DICK23 您好,刚刚检查了服务端应该还是正常的,您本地有使用了外置媒体设备吗(比如麦克风,摄像头)?
cky951113
209 天前
@xmsz 感谢提问! 您提到的 zoom 和飞书已经有翻译功能了,其实是基于文本字幕的实时翻译,我们希望能替代字幕翻译,这对视频沟通的沉浸感会有很大帮助。

其次,为什么我们要做这样一件好像大厂很容易就可以复制的事情?

我觉得首先,如果一个产品有潜在价值(意味着有人需要),那就一定需要有人先做出来,一般情况下这个先行者都不是大厂。其次,至于大厂是否会跟上,我们是否会被吞噬,我觉得这是市场化竞争,包括用户体验,商业模式,迭代速度等等因素决定的。

当下市面上的大厂产品,在雏形期也都或多或少面临同样的问题,比如 为什么有了 Webex 还要做 Zoom ,为什么有了 MySpace 还要做 Facebook ,为什么有了 Facebook 还要做 Twitter ?

再次感谢您的提问,非常理解您的质疑,短期功能性的产品注定是失败的,所以我们的产品也不会止步于此。
NeedforV2
209 天前
这个挺不错的,关注一下
lldld
209 天前
为什么不先做视频的语音翻译呢? 这个需求更大.
实时做的不错的话, 可以做直播的实时语音翻译, 游戏直播, 体育直播, 想象一个主播可以直接多个几个语言的频道.
xmsz
209 天前
@cky951113 感谢回复
我看了下飞书现在只有人工的同声传译,ai 的不确定有没有在搞。其他厂商比如腾讯讯飞百度已经有展示相关 AI 同声传译功能
不过 AI 的同声传译以及视频人物的口型合确实可以增加很强的沉浸感和增加跨国沟通效率,支持


----

因为我在国内创业小团队,我经历的就是

如果只是功能性的增强,其实大厂早有规划,但是会让市场其他小团队先发布,然后根据市场情况再决定要不要做,相当于帮大厂免费市场测试了,不仅是测试需求是不是合理,还帮他们测试现在市场时机合不合适


如果是一些小众新奇产品或者老套路轮回(割新韭菜)产品,可能刚上线成功没多久,大厂就复刻了一个一模一样的


我们也做过很多爆款小产品,但是不管什么情况,结果都一样,就是我们被挤出市场。
市场竞争靠广告投流,用户体验根本打不过大厂,商业模式大家都差不多,迭代速度也一定比大厂快(因为国内大厂内部也是敏捷小团队),偶尔有几个幸运儿在大厂看不到的角落里能苟活(如果你看到某些产品又丑又难用但是却很成功也不用惊讶)


当然我知道这种情况可能在哪都一样,但是我想知道在国外的市场有没有存在一些不同?有没有什么解决的办法?
我们今年也要跟着国内洪流涌到 AI 和跨境领域了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1108961

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX