这篇论文主要研究了如何将图像预训练的CLIP模型有效地适应到视频领域。作者提出了一个简单但强大的基线方法,称为ViFi-CLIP(Video Finetuned CLIP),通过微调CLIP模型来桥接图像和视频之间的领域差距。
ViFi-CLIP方法通过在视频数据上微调CLIP模型的图像和文本编码器,以学习视频特定的归纳偏置。作者还提出了一种“桥接和提示”的方法,用于低数据场景,其中首先使用微调来桥接领域差距,然后在语言和视觉方面学习提示,以适应CLIP表示。
该方法在五个视频基准上进行了广泛的评估,包括零样本、基类到新类的泛化、少样本和完全监督的设置。实验结果表明,ViFi-CLIP在各种设置下都表现出色,甚至在没有视频特定组件的复杂方法的情况下具有竞争力的性能。
总之,这篇论文强调了简单微调方法在将CLIP模型适应到视频领域时的潜力,并提出了一种有效的方法来提高模型在低数据场景下的泛化能力。
论文 | 方法 | 微调目标 | 微调方法 | 性能提升 |
---|---|---|---|---|
<url_7dcfff15> | ViFi-CLIP | 将图像预训练的CLIP模型适应到视频领域 | 微调图像和文本编码器 | 在五个视频基准上进行了广泛的评估,包括零样本、基类到新类的泛化、少样本和完全监督的设置。实验结果表明,ViFi-CLIP在各种设置下都表现出色,甚至在没有视频特定组件的复杂方法的情况下具有竞争力的性能。 |
<url_6e738db9> | FLYP | 改进零样本视觉模型的微调 | 使用与预训练相同的对比损失进行微调 | 在7个分布转移、6个迁移学习和3个少样本学习基准上进行了广泛的评估。实验结果表明,FLYP在各种设置下都表现出色,包括在WILDS-iWILDCam上的ID和OOD性能提升了2.3%和2.7%,以及在7个OOD数据集上的4.2%的OOD性能提升。 |
ViFi-CLIP和FLYP是两种不同的方法,用于改进模型在特定领域的性能。ViFi-CLIP通过微调图像和文本编码器来适应图像预训练的CLIP模型到视频领域,而FLYP通过使用与预训练相同的对比损失进行微调来改进零样本视觉模型的泛化能力。这两种方法都取得了显著的性能提升,但它们的目标和方法有所不同。