StableDiffusion、DALL-E、Imagen背后共同原理是什么?

最后编辑时间:2024-07-23 19:47:18 来源:未知 作者:未知 阅读量: 未知

  Generation Model 模块会利用这个表征向量生成一个图像表征向量,可以把它看作是图像的压缩版本

  ·同时,它还使用了预训练的通用VAE,将输入的图片压缩到潜空间(latent space),然后再进行扩散过程。

  是由OpenAI发布的一种Diffusion Model,它的架构如上图所示。 它利用CLIP方法得到文本和图像的表征向量。CLIP objective是一种对比学习方法,通过训练模型使其同时理解文本和图像,以便将文本描述和对应的图像紧密联系起来。在训练过程中,模型会从数据集中随机选择一个文本描述和对应的图片作为正样本,随机选择另一个文本描述和不属于该文本描述的图片作为负样本。模型的目标是使正样本的相似度高于负样本的相似度。

  DALL-E利用CLIP objective实现了文本和图像之间的交互,即给定一个文本描述,DALL-E可以生成与该描述相符合的图像。具体而言,DALL-E的生成过程如下:

  ·第一种是利用Autoregressive模型(例如GPT),输入文本表征,生成图像表征向量降维(如PCA)后的表征

(责任编辑:管理)