Stable Diffusion 2.0 版本包括使用全新文本编码器 (OpenCLIP) 训练的强大的文本到图像模型,该模型由 LAION 在 Stability AI 的支持下开发,与早期的 V1 版本相比大大提高了生成图像的质量。此版本中的文本到图像模型可以生成默认分辨率为 512x512 像素和 768x768 像素的图像。
这些模型在 Stability AI 的 DeepFloyd 团队创建的 LAION-5B 数据集的美学子集上进行训练,然后使用 LAION 的 NSFW 过滤器进一步过滤以删除成人内容。
Stable Diffusion 2.0 还包括一个 Upscaler Diffusion 模型,该模型将图像的分辨率提高了 4 倍。下面是低分辨率生成图像 (128x128) 放大为更高分辨率图像 (512x512) 的示例。
Stable Diffusion 2.0 还包括一个新的文本引导修复(text-guided inpainting)模型,这也是上一版本的改进。具体说来,就是如果我们对生成作品整体比较满意,但某些部分可能存在瑕疵(比如说眼睛),那我们可以只针对瑕疵的部分进行重新生成,而其它部分保持不变。或者反过来使用,保持某个部分不变,对其它部分重新生成,这样可以得到非常有趣的结果。