【文献阅读】DALL·E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

发表于 2023-03-30 更新于 2025-08-06 分类于算法，文献阅读阅读次数： Disqus：本文字数： 285 阅读时长 ≈ 1 分钟

机构： OpenAI
论文地址：

模型

DALL·E 2的总体流程图如下：可以看到，上半部分就是一个CLIP。CLIP模型在被训练好之后，其参数就会完全被冻住，不会再进行训练和finetune。然后下半部分就是一个两阶段的训练过程：

prior训练阶段 prior训练阶段是将CLIP的图像编码器得到的图像特征作为GroundTruth，然后通过文本编码器得到的文本特征进行预测，是一个有监督的过程，从而将prior部分训练出来。
decoder训练阶段 decoder训练阶段就是训练一个扩散模型的过程。

将输入图像通过CLIP的图像编码器得到图像特征，然后通过decoder生成相同风格的图像。

将两张图像得到的特征进行插值，可以将两张图像进行融合。同样的，文本特征也可以进行插值，然后通过prior和decoder生成图片。