我发明的算法,登上了 Hacker News 日榜第二!

4 天前
 diyer22

我在之前 ICLR 2025 的论文中提出了一种全新的生成模型——「离散分布网络」(Discrete Distribution Networks)

前两天在 Hacker News 上宣传,反响热烈,竟然来到了日榜第二名,给项目的网页带来了近 1.5 万的访问量。

所以,现在想在 V2EX 也宣传交流一下~

一句话介绍:「离散分布网络」是一个原理简单、性质独特的全新生成模型,有着非常多有趣的性质。期待 DDN 能给更多人带来灵感~

PS. GitHub 五万关注者的算法大 V lucidrains 也复现了 DDN 算法: https://github.com/lucidrains/discrete-distribution-network

详情:

英文介绍: https://x.com/diyerxx/status/1978531040068321766 ( twitter 冷启动实在太难啦,求互动一下鼓励鼓励🥺)

中文介绍: https://zhuanlan.zhihu.com/p/1935903948990047972

项目网页: https://discrete-distribution-networks.github.io/

GitHub: https://github.com/DIYer22/discrete_distribution_networks

3881 次点击
所在节点    分享创造
37 条回复
diyer22
4 天前
@halberd 感谢欣赏~
别忘了,主干 feature 会贯穿 DDN 的每一层。也就是说,每一层的计算和特征还会为最后一层的 output 负责,而不仅仅是专门为了某一层切分成 K 小块而服务。
supemaomao
4 天前
虽然看不懂,但我大受震撼!
djs
3 天前
大佬牛逼
gmuubyssss
3 天前
我是来为大神喝彩的。
lzjunika
3 天前
膜拜
NeedforV2
3 天前
虽然看不懂,但我大受震撼!
spacebound
3 天前
虽然看不懂,但我大受震撼!
xinyu391
3 天前
看不懂
zhaosong
3 天前
已经是另一个 level 呢吗,你这家伙
wukaige
3 天前
巨佬合影
TQQQ
3 天前
能应用到 TTS(语音合成)吗
diyer22
3 天前
@TQQQ 我觉得 DDN 是具备处理 TTS 任务的能力,因为在文字条件的约束下,生成空间被大幅缩小。
建议再搭配一个自回归模型( GPT ),以获得更强的建模能力。比如把 GPT 的分类 head 换为 DDN ,应该能 work 。
jy02534655
3 天前
原来这就是大佬的世界,我只能说 6666
Simon95
3 天前
@diyer22 DDN 和 RVQ ( Residual vector Quantization )我觉得结合 GPT 在训练时候可能都有一个问题,就是第一层的码本(对应着 DDN 第一个 level )的重建都相当好,但其余码本的效果就比较差。
因为 DDN 好像不同 level 之间也类似于的“残差”?但是在样本空间,而不是在 latent space 。
我就是做语音的,在图像领域最新的论文( Diffusion Transformers with Representation Autoencoders )好像也表示不压缩效果更好。但用 CFM 去做生成的话,好像利用样本空间的分布直接生成的效果不是很好,而用 latent space 的分布更好,我感觉 DDN 的分布更接近于样本空间?
不知道训练的效率怎么样,我找个时间在更大的数据集上跑跑试试。
lyxxxh2
3 天前
hacker new?
以前也听过别人贴子:"登上 Hacker News 榜第 x"
好像很水吧,随便发帖就能上的。
diyer22
3 天前
@Simon95
- 我觉得 DDN 的情况可能是第一层重建效果会比较差(非常模糊),随着层数增加才会变得清晰。
- 虽然 DDN 是在样本空间做的采样和 “残差”,但 DDN 也可以像 latent diffusion 一样在 latent 空间做生成。(这时候的生成样本就成了 AutoEncoder 的 latent )
- 训练效率还可以,中文博客的 “附录的 Q1” 有论述。目前 DDN 的最大问题还是 latent 空间不够大,需要改进自身(方案见中文博客的“不足和改进”)或者和 GPT 结合来分段建模,缩小空间
- 欢迎尝试,遇到问题了随时提 issue ,发邮件~
evilcat
3 天前
算法大佬

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1166208

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX