要知道扩散模型和潜在扩散模型的关系,可以先了解扩散模型和潜在扩散模型的概念。
扩散模型在图像修复和图像生成等任务中非常流行,简单来说,扩散模型就是对VAE、GAN和流模型等现有模型的改进。
要知道GAN模型有着潜在的不稳定训练和由于其对抗训练性质而导致的生成多样性较低的问题,流模型则必须使用专门的架构来构建可逆转换。为了解决这些问题,扩散模型定义了扩散步骤的马尔可夫链,以缓慢地将随机噪声添加到数据中,然后学习反转扩散过程以从噪声中构建所需的数据样本。与VAE或流模型不同,扩散模型是通过固定过程学习的,并且潜在变量具有与原始数据相同的维度。这些模型是通过找到最大化训练数据的可能性的逆马尔可夫转换来训练的。
扩散模型包含以下步骤:
正向扩散,逐渐将高斯噪声添加到图像中,直到它能够产生纯噪声。
反向扩散,其中训练神经网络从纯噪声开始逐渐对图像进行去噪,直到模型以实际图像结束。
尽管扩散模型解决了图像生成任务的主要问题,但反向去噪过程很慢,而且在像素空间中工作时会消耗大量内存。因此,由于时间和内存的限制,训练或从这些模型中获得结果就变得困难。
为了解决扩散模型的限制问题,潜在扩散模型应运而生。
潜在扩散模型(LDM)利用GAN的感知能力、扩散模型的细节保存能力和Transformer的语义能力 。LDM已证明自己的强大和高效。与其他方法相比,它们不仅具有内存效率,而且还可以生成多样化、高度详细的图像,从而保留数据的语义结构。简而言之,LDM是在潜在空间而不是像素空间中扩散过程的应用,同时结合了来自Transformers的语义反馈。