扩散模型的原理 ylc3000 2025-11-10 0 浏览 0 点赞 长文 电子书 The Principles of Diffusion Models --From Origins to Advances 扩散模型的原理 400多页的大部头。作者来自Sony 、OpenAI、斯坦福等机构 “本专著重点阐述了塑造扩散模型发展的基本原理,追溯其起源,并展示了不同的形式是如何从共同的数学理念中演化而来的。 扩散建模始于指定一个前向破坏过程 (forward corruption process),该过程逐渐将数据转化为噪声。这个前向过程通过定义一个连续的中间分布族,将数据分布与一个简单的噪声分布联系起来。扩散模型的核心目标是构建另一个反向运行的过程,将噪声转化为数据,同时恢复由前向破坏过程所定义的相同的中间分布。 我们描述了三种互补的方式来将这一思想形式化。变分视角 (variational view),受变分自编码器 (variational autoencoders) 的启发,将扩散视为学习逐步去除噪声,通过解决一系列小的去噪目标,这些目标共同教会模型如何将噪声逆转为数据。基于分数 (score-based) 的视角,植根于基于能量的模型 (energy-based modeling),它学习演化中的数据分布的梯度 (gradient),该梯度指明了如何将样本推向(nudge)更可能的区域。基于流 (flow-based) 的视角,与归一化流 (normalizing flows) 相关,它将生成过程视为在一个学习到的速度场 (velocity field) 的驱动下,沿着一条平滑路径将样本从噪声移动到数据。 这些视角共享一个共同的主干:一个学习到的随时间变化的速度场,其“流” (flow) 将一个简单的先验分布传输为数据分布。有了这个,采样就相当于求解一个微分方程 (differential equation),该方程沿着一条连续的生成轨迹 (generative trajectory) 将噪声演化为数据。在此基础上,本专著讨论了用于可控生成的引导 (guidance) 机制、用于高效采样的高级数值求解器 (advanced numerical solvers),以及受扩散启发的流图模型 (flow-map models),这些模型学习该轨迹上任意时间点之间的直接映射。 本专著面向具有基础深度学习背景、并寻求对扩散模型有清晰、概念化且数学基础扎实的理解的读者。它阐明了理论基础,解释了其多样化形式背F后的推理,并为在这个快速发展的领域中进行进一步学习和研究提供了坚实的立足点。它既可作为研究人员的系统性参考资料,也可作为学习者易于理解的入门指南。” 网闻录 扩散模型的原理