I2V-Adapter:A general image-to-video adapter for video diffusion models
[https://zhuanlan.zhihu.com/p/677742068

https://zhuanlan.zhihu.com/p/677742068

1.Temporal modeling with stable diffusion
与AnimateDiff相辅相成的是Image2Video技术的主要应用领域;本文采用的是Image2Video技术。
2.Adapter for attention layer
I2V的主要挑战在于维持输入图像本身的ID特征。现有方案通常采用预训练图像编码器对输入图像进行处理,并将提取出的关键特征借助cross attention机制注入到主模型中以指导去噪过程;另一种方法是在输入端同时融合原始清晰图像与带噪声版本,在通道维度上整合后一起作为输入传递给网络。前者的主要原因是因为基于传统编码器难以有效捕捉深层细节而导致生成视频中的ID信息发生偏移;而后者则面临模型架构和参数调整带来的较大训练成本以及较低的适用性。
一种基于自适应多帧注意力机制的深度学习框架I2V-adapter能够同时接收清晰图像与带噪声输入信号的一种深度学习架构在空间块层中每一帧都会独立地进行一次首帧特征提取过程其处理方式与TVA(Tune-and-Vide)算法相似其中查询向量k与值向量v均直接来源于原始未经过去噪处理的第一帧数据输出结果通过自注意力机制进行融合

I2V-adapter中采用零初值,并仅对输出映射矩阵及q映射矩阵进行训练。为了进一步提升模型的理解能力,增加了内容适配器(即IP-adapters)。
3.Frame similarity prior

假设所有帧具有类似的结构特征,在经过适当程度的高斯噪声添加后变得难以辨认。因此可将经高斯噪声处理后的输入图像视为后续帧的基础前提。为了消除高频信息可能造成的误导效应, 研究者采用了高斯模糊算子(https://zhida.zhihu.com/search?q=模糊算子&zhida_source=entity&is_preview=1 "模糊算子")以及随机掩码混合的技术


