StableDiffusion、DALL-E、Imagen背后共同原理是什么？

返回首页

StableDiffusion、DALL-E、Imagen背后共同原理是什么？

最后编辑时间：2024-07-23 19:47:18 来源：未知作者：未知阅读量：未知

　　Generation Model 模块会利用这个表征向量生成一个图像表征向量，可以把它看作是图像的压缩版本

　　·同时，它还使用了预训练的通用VAE，将输入的图片压缩到潜空间（latent space），然后再进行扩散过程。

　　是由OpenAI发布的一种Diffusion Model，它的架构如上图所示。它利用CLIP方法得到文本和图像的表征向量。CLIP objective是一种对比学习方法，通过训练模型使其同时理解文本和图像，以便将文本描述和对应的图像紧密联系起来。在训练过程中，模型会从数据集中随机选择一个文本描述和对应的图片作为正样本，随机选择另一个文本描述和不属于该文本描述的图片作为负样本。模型的目标是使正样本的相似度高于负样本的相似度。

　　DALL-E利用CLIP objective实现了文本和图像之间的交互，即给定一个文本描述，DALL-E可以生成与该描述相符合的图像。具体而言，DALL-E的生成过程如下：

　　·第一种是利用Autoregressive模型（例如GPT），输入文本表征，生成图像表征向量降维（如PCA）后的表征

(责任编辑：管理)

上一篇：B站授权规模迈向千亿元
下一篇：衡阳2所大学新任命2名院长、党委书记！

随机内容