北京时间 5 月 20 日凌晨 1 点是 Google I/O ,估计今年还是 Gemini / Veo 相关更新比较多。
我最近做了一个 AI 视频生成网站:Veo Omni。
现在支持:
做这个项目主要是想把视频生成的几个常见流程封装一下。底层模型一般都是异步任务,输入里又经常混着 prompt 、图片、视频、音频,直接接 API 的话前后处理比较烦。
目前 Veo Omni 做的事情比较简单:
这次 Google I/O 我比较好奇 Veo 会不会继续往可编辑方向走。单纯 text to video 其实不太够用,开发者更需要的是稳定的工作流:参考图、源视频、局部修改、镜头续写、失败重试、任务队列、结果管理。
我自己做下来感觉,AI video generator 这类产品难点不只是在模型调用,更多是在这些工程细节:
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.