本文介绍了VIDIM,一种用于视频插值的生成模型,它可以根据起始帧和结束帧生成短视频。为了实现高保真度和生成输入数据中未见过的动作,VIDIM使用级联扩散模型首先在低分辨率下生成目标视频,然后根据低分辨率生成的视频生成高分辨率视频。与之前的视频插值方法相比,VIDIM在处理复杂、非线性或模棱两可的动作时表现出色。此外,通过在起始帧和结束帧上使用无分类器指导,并将超分辨率模型的条件设置为原始高分辨率帧(无需额外参数),可以实现高保真度的结果。VIDIM可以快速采样,因为它可以同时对所有要生成的帧进行去噪,每个扩散模型需要的参数少于10亿个,并且仍然可以随着参数数量的增加而扩展并提高质量。
VIDIM采用级联扩散模型,包括一个基本模型和一个超分辨率模型。基本模型在64x64分辨率下生成7个中间帧,而超分辨率模型则根据原始256x256起始和结束帧以及7个64x64输入帧生成相应的7个256x256帧。为了训练这些模型,使用了WebVid数据集和其他内部视频数据集的混合数据。
在实验中,比较了VIDIM与其他视频插值方法的性能。使用PSNR、SSIM、LPIPS、FID和FVD等指标来评估模型的性能。结果显示,VIDIM在大多数生成指标上都优于其他基线方法。此外,用户研究也表明,人类观察者更喜欢VIDIM生成的视频。
消融研究重点关注了在起始和结束帧上进行条件训练的重要性。结果表明,通过在训练过程中明确地将模型条件设置为输入帧,可以显著提高结果的质量。此外,还研究了VIDIM模型的可扩展性,发现随着参数数量的增加,模型的性能会提高。
通过定性、定量和人类评估,证明了简单的VIDIM模型和架构能够实现视频插值的最新水平,尤其是在处理大而模棱两可的动作时。然而,仍然需要进一步研究以使这些模型最大程度地发挥作用,包括生成任意纵横比的视频和进一步提高超分辨率模型的质量。
<url_e732f7d9>