选自arXiv
机器心脏编译
编辑:蛋酱
近年来,扩散模型已经成为人工智能领域的一个研究热点。在最近的一项研究中,来自谷歌研究院和UT-Austin的研究人员充分考虑了“损害”过程,并针对更一般的损害过程提出了扩散模型设计框架。
我们知道,基于分数的模型和去噪扩散概率模型(DDPM)是两个强大的生成模型,它们通过反转扩散过程来生成样本。
宋洋和其他研究人员在论文《Score-based generative modeling through stochastic differential equations》中将这两个模型统一到一个框架中,并被广泛称为扩散模型。
目前,扩散模型已经在一系列应用中取得了巨大的成功,包括图像、音频和。。的生成以及求解逆问题。Tero Karras等人在论文《Elucidating the design space of diffusionbased generative models》中分析了扩散模型的设计空间。
确定了三个阶段,即I)选择噪声水平的调度,ii)选择网络参数化(每个参数化生成不同的损失函数),以及iii)设计采样算法。
最近,在Google Research和UT-Austin共同撰写的arXiv论文《Soft Diffusion: Score Matching for General Corruptions》中,几位研究人员认为扩散模型中还有一个重要步骤:腐败。一般来说,
损伤是一个添加不同振幅噪声的过程,需要根据DDMP重新调整。虽然有人尝试用不同的分布进行扩散,但还是缺乏一个通用的框架。因此,研究人员提出了一个更普遍的损伤过程的扩散模型设计框架。
具体来说,他们提出了一个新的训练目标命名为软分数匹配和一个新的采样方法动量采样器。理论结果表明,对于满足正则条件的损伤过程,
软得分匹配可以学习它们的得分(即似然梯度),扩散必须将任何图像变换成任何非零似然的图像。
在实验部分,研究人员在CelebA和CIFAR-10上训练模型,其中线性扩散模型的SOTA FID得分为333,541.85。
同时,与原始的高斯去噪扩散训练模型相比,研究人员训练的模型速度明显更快。
论文地址:https://arxiv。org/pdf/2209.05442。可移植文档格式文件的扩展名(portable document format的缩写)
方法概述
一般来说,扩散模型通过反转逐渐增加噪声的损伤过程来生成图像。研究人员展示了如何学习逆转涉及线性确定性退化和随机加性噪声的扩散。
具体来说,研究者展示了一个使用更一般的损伤模型来训练扩散模型的框架,该框架包括三个部分,即新的训练目标、软得分匹配、新的采样方法、动量采样器和损伤机制的调度。
首先我们来看训练目标软评分匹配。这个名字的灵感来自于柔光滤镜,这是一个摄影术语,指的是去除精细细节的滤镜。它以可证明的方式学习传统线性损伤过程的分数,
过滤过程也被结合到网络中,模型被训练来预测与扩散观察相匹配的受损图像。
只要扩散将非零概率指定为任何干净和损坏的图像对,训练目标就可以证明分数已经被学习。此外,当损伤中存在加性噪声时,这个条件总能得到满足。
具体地,研究者探究了如下形式的损坏过程。
在过程中,研究者发现噪声在实证(即更好的结果)和理论(即为了学习分数)这两方面都很重要。这也成为了其与反转确定性损坏的并发工作Cold Diffusion 的关键区别。
其次是采样方法Momentum Sampling。研究者证明,采样器的选择对生成样本质量具有显著影响。他们提出了Momentum Sampler,用于反转通用线性损坏过程。
该采样器使用了不同扩散水平的损坏的凸组合,并受到了优化中动量方法的启发。
这一采样方法受到了上文Yang Song 等人论文提出的扩散模型连续公式化的启发。Momentum Sampler 的算法如下所示。
下图直观展示了不同采样方法对生成样本质量的影响。图左使用Naive Sampler 采样的图像似乎有重复且缺少细节,而图右Momentum Sampler 显著提升了采样质量和FID 分数。
最后是调度。即使退化的类型是预定义的(如模糊),决定在每个扩散步骤中损坏多少并非易事。研究者提出一个原则性工具来指导损坏过程的设计。为了找到调度,
他们将沿路径分布之间的Wasserstein 距离最小化。直观地讲,研究者希望从完全损坏的分布平稳过渡到干净的分布。
实验结果
研究者在CelebA-64 和CIFAR-10 上评估了提出的方法,这两个数据集都是图像生成的标准基线。实验的主要目的是了解损坏类型的作用。
研究者首先尝试使用模糊和低幅噪声进行损坏。结果表明,他们提出的模型在CelebA 上实现了SOTA 结果,即FID 分数为1.85,超越了所有其他仅添加噪声以及可能重缩放图像的方法。
此外在CIFAR-10 上获得的FID 分数为4.64,虽未达到SOTA 但也具有竞争力。
此外,在CIFAR-10 和CelebA 数据集上,研究者的方法在另一项指标采样时间上也表现更好。另一个额外的好处是具有显著的计算优势。与图像生成去噪方法相比,
去模糊(几乎没有噪声)似乎是一种更有效的操纵。
下图展示了FID 分数如何随着函数评估数量(Number of Function Evaluations, NFE)而变。从结果可以看到,在CIFAR-10 和CelebA 数据集上,
研究者的模型可以使用明显更少的步骤来获得与标准高斯去噪扩散模型相同或更好的质量。
标题:Soft Diffusion:谷歌新框架从通用扩散中正确调度、学习和采样
链接:https://www.52hkw.com/news/rj/62739.html
版权:文章转载自网络,如有侵权,请联系删除!