解析或者讨论下何恺明带学生新作,扩散模型不需要噪声时间条件?

发布时间:
2025-02-23 02:45
阅读量:
16

呃呃,我真的无语了。你要说的话VAE不就是blind denoising嘛。。。甚至现在VAR的scaling里面也会加一点噪音在里面增强鲁棒性。

其实不要条件本来就可以做,比如我之前看过一篇的扩散模型的可解释理论:

Generalization in diffusion models arises from geometry-adaptive harmonic representations

就是引用的Robust and interpretable blind image denoising via bias-free convolutional neural networks,用的bias free network做的denoising,之所以要用bias free就是为了好本征分解那个矩阵。(这几篇文章当然我觉得还没有点到实质,真正点到实质的是An analytic theory of creativity in convolutional diffusion models,说明了(起码基于CNN的)diffusion model本质是一个local score matching machine)。

我在这个问题的一个回答下还评论过,现在大规模采用Flow matching,很有可能就是输入方差不恒定反而有利于模型利用这一点,自动从输入中估计降噪,而不仅仅是利用外界条件t。

扩散模型中,Flow Matching的训练方式相比于 DDPM 训练方法有何优势?

但我们还是更喜欢加一个时间条件在里面,原因是:1. 我们往往也会加一点别的条件在里面,譬如World model有动作输入,然后你可以直接把时间+动作怼进model里 2. 以后diffusion forcing很有可能成为AR + diffusion结合的标准,这种情况下每个frame的噪音强度会差的很大,可能不得不在layernorm里通过注入外界时间步稳定训练。

当然这些都是直觉而已,以后怎么样说不准。不过我觉得,在现在scaling大模型的背景下,没人在乎diffusion model到底有noise还是没noise条件,RF是直的弯的,MMDiT和DiT谁好谁坏,不如多偷点Midjourney家的色图。

END