揭秘扩散模型:DALL-E与Midjourney的AI艺术生成奥秘

Kdnuggets

以ChatGPT等大型语言模型为代表的生成式人工智能近期爆发式增长,为主流带来了新一波创新浪潮。除了文本生成,这些强大的AI系统还改变了我们创建视觉内容的方式,催生了DALL-E和Midjourney等工具。这些广受欢迎的平台,因其能将简单的文本提示转化为复杂的图像而备受赞誉,但它们并非无中生有;相反,它们依赖于一种复杂的底层技术,即扩散模型。

扩散模型的核心是一类生成式AI算法,旨在生成与其训练样本相符的新数据。对于图像生成而言,这意味着从各种输入中构建新颖的视觉效果。与早期的生成方法不同,扩散模型通过独特的两阶段过程运行:它们首先系统地向数据中引入噪声,然后精心学习如何去除噪声,从而有效地将受损图像精炼为最终产品。我们可以将它们视为先进的“去噪”引擎。

扩散模型的概念基础源于Sohl-Dickstein等人于2015年进行的开创性研究,他们提出了通过“受控正向扩散过程”将数据转换为纯噪声,然后训练模型反转此过程并重建原始数据的想法。在此基础上,Ho等人在2020年提出了现代扩散框架,该框架显著推动了该领域的发展,能够生成高质量图像,甚至超越了之前占据主导地位的模型,如生成对抗网络(GANs)。

第一个关键阶段,即正向(或扩散)过程,涉及图像的逐步损坏。从数据集中一张清晰的图像开始,在数百或数千个步骤中逐渐添加少量噪声。随着每次迭代,图像会逐渐退化,直到与随机静态无法区分。此过程在数学上建模为马尔可夫链,这意味着每个噪声版本仅取决于其紧邻的前一个状态。这种逐步退化而非单一突变的原因至关重要:它使模型能够学习从噪声数据到较少噪声数据的微妙过渡,从而使其能够从纯粹的随机性中逐步重建图像。噪声引入的速度由“噪声调度”控制,它可以变化——线性调度稳定地添加噪声,而余弦调度则更缓慢地引入噪声,从而更长时间地保留图像特征。

正向过程之后,逆向(或去噪)过程将模型转化为强大的图像生成器。此阶段是正向过程的逆转:模型从纯高斯噪声(一个完全随机的图像)开始,并迭代地去除噪声以重建新的图像数据。为此目的训练了一种专门的神经网络架构,通常是U-Net。在训练过程中,U-Net学习预测在正向过程中添加的噪声分量。在逆向过程的每一步,它都使用当前的噪声图像和相应的时步来预测如何减少噪声,从而逐渐揭示更清晰的图像。通过最小化损失函数(例如均方误差,它衡量预测噪声与实际噪声之间的差异)来磨练模型的熟练度。与GANs等早期模型相比,这种逐步去噪方法提供了更高的稳定性和更可靠的生成路径,从而产生更具表现力和可解释性的学习结果。一旦完全训练,生成新图像只需从纯噪声的起始点执行此学习到的逆向过程。

对于DALL-E和Midjourney等文本到图像系统,逆向过程由文本条件引导。这种机制允许用户通过自然语言提示来影响图像生成,确保输出与他们的文本描述一致,而不是产生随机视觉效果。这首先通过使用预训练的文本编码器(如CLIP,即对比语言-图像预训练)将文本提示转换为数值表示,或“向量嵌入”来实现。然后,此嵌入被馈送到扩散模型的架构中,通常通过一种称为交叉注意力的机制。交叉注意力使模型能够专注于文本提示的特定部分,并在每个去噪步骤中使图像生成过程与提示的语义保持一致。这是这些平台将人类语言转化为引人注目的视觉艺术的根本桥梁。

尽管DALL-E和Midjourney都建立在扩散模型之上,但它们的技术应用和由此产生的艺术风格表现出微妙的差异。DALL-E通常采用由基于CLIP的嵌入引导的扩散模型进行文本条件化,通过诸如无分类器引导(它平衡了无条件和文本条件输出)等技术强调对提示的遵守。相反,Midjourney则拥有自己的专有扩散模型架构,据报道包括一个经过微调的图像解码器,该解码器针对更高的真实感和更具风格化的解释进行了优化。这通常意味着Midjourney在更简洁的提示下表现出色,并可能利用更高的默认引导比例,而DALL-E通常可以通过在进入扩散管道之前处理更长、更复杂的文本输入来管理它们。

最终,扩散模型已巩固了其作为现代文本到图像系统基石的地位。通过利用正向和逆向扩散过程的优雅相互作用,并辅以复杂的文本条件化,这些模型可以将抽象的文本描述转化为全新的、视觉丰富的图像,从而推动创意AI的边界。