这篇文章主要介绍了一个名为LlamaGen的新型图像生成模型家族,该模型将大型语言模型(LLM)的“下一步预测”范式应用于视觉生成领域。文章的作者提出了一种名为LlamaGen的模型,该模型在不对视觉信号进行归纳偏置的情况下,通过适当的缩放,能够实现最先进的图像生成性能。
LlamaGen模型的创新之处在于,它重新审视了图像标记器的设计空间、图像生成模型的可扩展性属性以及它们的训练数据质量。该模型在ImageNet基准测试上实现了0.94的rFID重建质量和97%的码本使用率,并使用从111M到3.1B参数的系列类条件图像生成模型实现了2.18的FID。此外,该模型还在LAION-COCO和高美学质量图像上进行了两阶段训练,以实现775M参数的文本条件图像生成模型。
为了验证LLM服务框架在优化图像生成模型推理速度方面的有效性,作者在LlamaGen模型上进行了实验,并实现了326%-414%的速度提升。最后,作者将所有模型和代码开源,以促进视觉生成和多模态基础模型的社区发展。
模型 | 介绍 |
---|---|
LlamaGen | LlamaGen是一个基于大型语言模型(LLM)的“下一步预测”范式,应用于视觉生成领域的新型图像生成模型家族。它通过适当的缩放,在不对视觉信号进行归纳偏置的情况下,实现了最先进的图像生成性能。 |
VAR | VAR(Visual AutoRegressive)是一种新型的图像生成模型,它重新定义了图像上的自回归学习,作为从粗到细的“下一步尺度预测”或“下一步分辨率预测”,与传统的光栅扫描“下一步标记预测”不同。这种方法简单直观,使自回归(AR)变压器能够快速学习视觉分布,并具有很好的泛化性。 |
模型 | 架构 |
---|---|
LlamaGen | LlamaGen的模型架构主要基于LLM,特别是GPT系列模型。它使用图像标记器将图像像素量化为离散标记,然后使用自回归模型(如Transformer)生成图像标记。在文本条件图像生成任务中,它使用FLAN-T5 XL作为文本编码器,将文本特征投影到图像标记嵌入中。 |
VAR | VAR的模型架构基于自回归(AR)变压器,特别是GPT-2系列模型。它使用多尺度VQVAE将图像编码为多尺度标记地图,然后使用AR模型生成这些标记地图。在每个步骤中,AR模型预测下一个更高分辨率的标记地图,条件是所有先前的标记地图。 |
模型 | 训练方法 |
---|---|
LlamaGen | LlamaGen使用两阶段训练策略进行文本条件图像生成。在第一阶段,模型在LAION-COCO数据集的一个50M子集上进行训练。在第二阶段,模型在10M内部高美学质量图像上进行微调。对于类条件图像生成,模型在ImageNet数据集上进行训练。在训练过程中,它使用自回归模型生成图像标记,并使用分类器免费指导来提高生成质量。 |
VAR | VAR使用多尺度VQVAE将图像编码为多尺度标记地图,然后使用AR模型生成这些标记地图。在训练过程中,它使用AR模型预测下一个更高分辨率的标记地图,条件是所有先前的标记地图。在生成过程中,它使用AR模型生成多尺度标记地图,然后使用多尺度VQVAE解码器将这些标记地图解码为图像。 |
模型 | 生成质量 |
---|---|
LlamaGen | LlamaGen在ImageNet 256×256基准上实现了0.94的rFID重建质量和97%的码本使用率。它的类条件图像生成模型在ImageNet 256×256基准上实现了2.18的FID,并使用从111M到3.1B参数的系列模型进行了扩展。它的文本条件图像生成模型在LAION-COCO和高美学质量图像上进行了两阶段训练,以实现775M参数的模型。 |
VAR | VAR在ImageNet 256×256基准上实现了1.80的FID和356.4的IS,比AR基线有了显著改进。它还展示了在图像填充、图像扩展和图像编辑等下游任务上的零样本泛化能力。此外,VAR还展示了与LLM类似的缩放定律和零样本泛化能力。 |
模型 | 生成速度 |
---|---|
LlamaGen | LlamaGen使用LLM服务框架(如vLLM)来优化其生成速度。在使用vLLM时,LlamaGen实现了326%-414%的速度提升,比基线设置快得多。此外,LlamaGen还展示了在GPU上的高效内存使用,使其适用于大规模生成任务。 |
VAR | VAR在生成速度方面也表现出色。与传统的AR模型相比,VAR仅需要O(log(n))的迭代和O(n^4)的总计算量,而传统的AR模型需要O(n^2)的迭代和O(n^6)的总计算量。此外,VAR还展示了与LLM类似的缩放定律和零样本泛化能力,这可能有助于其在大规模生成任务上的生成速度。 |
模型 | 数据集和预训练 |
---|---|
LlamaGen | LlamaGen在ImageNet数据集上进行了预训练,并在LAION-COCO数据集上进行了微调。此外,它还在内部高美学质量图像数据集上进行了微调。这些数据集用于训练其类条件和文本条件图像生成模型。 |
VAR | VAR在OpenImages数据集上进行了预训练,并在ImageNet数据集上进行了微调。这些数据集用于训练其多尺度VQVAE和AR模型。此外,VAR还在ImageNet数据集上进行了缩放定律研究和零样本泛化能力评估。 |
LlamaGen的image tokenizer是其图像生成模型的重要组成部分,它负责将图像像素转换为离散的图像标记,以便于自回归模型进行处理。以下是关于LlamaGen的image tokenizer的详细信息:
LlamaGen的image tokenizer采用的是Quantized-Autoencoder(QAE)架构,该架构包括三个主要组件:编码器、量化器和解码器。
代码本设计是LlamaGen的image tokenizer的关键部分,它直接影响到图像标记的表示能力和图像生成的质量。
LlamaGen的image tokenizer在ImageNet数据集上进行训练,使用256×256的图像分辨率和随机裁剪数据增强。训练过程包括两个阶段:
LlamaGen的image tokenizer在ImageNet数据集上进行了性能评估,使用rFID(reconstruction FID)、PSNR(Peak Signal-to-Noise Ratio)和SSIM(Structural Similarity Index Measure)等指标来衡量图像重建质量。结果显示,LlamaGen的image tokenizer在图像重建质量方面优于其他image tokenizer,如VQGAN、MaskGIT和ViT-VQGAN等。
LlamaGen的image tokenizer在LlamaGen的图像生成模型中得到了广泛应用。它不仅用于类条件图像生成任务,还用于文本条件图像生成任务。在类条件图像生成任务中,image tokenizer将图像像素转换为离散的图像标记,以便于自回归模型生成图像。在文本条件图像生成任务中,image tokenizer与文本编码器结合使用,将文本特征投影到图像标记嵌入中,以便于自回归模型生成与文本描述相对应的图像。