gpt4o 图像生成的特点是,生成时从上到下逐渐清晰化(并不只是显示技巧)
如果使用 diffusion 进行生成,它的过程可能是这样的
但已知的是 gpt4o 图像生成(似乎)已经转向 autoregressive(自回归模型)+transformer
目前外网也对 gpt4o 的技术进行了猜测,但也没讨论出个结果来(大多是认同转向了 ar 模型)
自回归模型是要打败 diffusion ,并在多模态领域又好用起来了吗?
另外,目前开源界似乎还没有什么动静,国内的字节跳动在 ar 的图像生成领域探索得还挺多(发了不少 paper )
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.