Shadow Generation for Composite Image in Real-world Scenes
摘要
图像合成的目标是在背景图像上插入一个前景对象。以往的图像合成方法大多侧重于调整前景使其与背景兼容,而忽略了前景对背景的阴影效果。在这项工作中,我们专注于为合成图像中的前景对象生成合理的阴影。首先,我们通过基于成对的真实图像和去阴影图像生成合成合成图像来贡献真实世界的阴影生成数据集 DESOBA。然后,我们提出了一种新颖的阴影生成网络 SGRNet,它由阴影掩模预测阶段和阴影填充阶段组成。在荫罩预测阶段,前景和背景信息进行彻底的交互以生成前景荫罩。在阴影填充阶段,预测阴影参数以填充阴影区域。在我们的 DESOBA 数据集和真实合成图像上的大量实验证明了我们提出的方法的有效性。
引言
图像合成的目标是从一张图像中提取并无缝拼接前景对象到另一张背景图像上以生成合成图像的过程。 近年来,这一技术日益受到医学、教育和娱乐领域日益增长的关注 [1, 46, 23]。 为此类问题求解已提出若干深度学习算法 [20, 3, 30, 2] ,这些方法旨在增强合成图像的颜色一致性、缩放比例、空间布局以及遮挡效果等视觉真实感表现 [5, 7] 。 然而,在现有研究中仍存在局限性:现有方法主要关注于优化前景对象的表现效果 ,却忽视了如何改善前景对背景信息的拟合效果 ,例如背景中的阴影细节或表面反射特性等现象未能得到充分考虑 。 在本研究中 ,我们重点解决基于背景信息模拟前景物体阴影这一关键问题 ,通过为前景物体生成与背景相匹配的阴影效果 ,从而使得合成图像的整体视觉表现更加逼真可信 。
为了实现将图像转换为图像的任务, 深度学习方法通常需要大量的成对训练样本来训练模型. 其中, 这些样本包括无前景阴影的合成图像和具有前景阴影的目标图像. 然而, 在现实世界中获取这些成对样本极其困难. 因此, 先行研究者如[46,23]通过将虚拟物体嵌入三维场景并利用渲染技术生成影子来解决这一问题. 这种方法能够生成具有高质量渲染数据集, 然而该数据集存在两个主要缺陷: 首先, 物体/场景的数量有限(例如,[23]中仅包含11个前景物体)且背景设置过于简单; 其次, 渲染出的图像与真实世界的图像是存在较大领域差异的, 因此这种数据集不适合作为现实世界图像是进行合成的有效来源.
鉴于此缺点 我们倾向于基于上述缺点分析的基础上 构建一套真实世界阴影生成数据集
基于成对的训练数据集合的构建下
如图所示, SGRNet由两部分构成:影遮掩预测模块与影遮填充模块。在影遮预测环节,输入合成复合图像Ic及前景物块遮罩Mfo,本系统构建了专门的前景编码模块用于提取目标物所需信息,并设计了辅助推断背景照明信息的背景编码模块。通过非局部注意力机制辅助,实现目标物与其背景间的全面交互,从而促进影遮生成过程中的精确性与完整性。随后进入影遮填充环节,该模块基于预先建立的光照模型[17]进行操作:首先推断出物体表面的影遮特征,随后优化影遮区域的空间分布;此外还设计了一种条件判别网络用于区分真实的目标-影遮图像三元体与假样本之间的差异,从而使得生成网络能够输出逼真的前景物体及其对应的影遮效果;最后通过一系列精心设计的数据集测试与合成实验评估SGRNet的有效性
我们主要贡献如下:第一部分我们提供了一个真实世界的阴影生成数据集 DESOBA;第二部分我们开发了一个两阶段网络SGRNet用于合成图像中前景对象的阴影生成;第三部分通过大量实验验证了该数据集构建方法的实用性和所提网络的优势。
方法
给定无影遮蔽背景图像 Ic 和前景对象 Mfo 的遮罩图谱,在真实场景网络中实现深度伪造(SRGNet)目标即为输出具象化影影影响图像 Ig。该网络架构由两部分构成:首先预测影影影响遮罩阶段;随后填充影影响蒙版阶段(如图 3所示)。于第一部分架构中, 开发了一个兼具前景分支与背景分支的遮罩影响发生器 GS 来产出影影响遮罩 ~Mfs; 在第二部分架构中, 运用影参数估计器 EP 与影影响发生器 GM 来完成对影蒙版的填充, 最终产出具象化带影目标图像 ~Ig. 此外, 辅助判别器 D 被引入以强制 SRGNet 持续产出逼真型影影响遮罩 ~Mfs 与目标图像 ~Ig.
预测阴影mask
该二进制阴影掩模生成器GS专注于预测前景对象的二进制阴影掩模~Mfs。基于编码器和解码器设计的U-Net架构[27]被采用。为了更好地提取前景与背景信息,我们将编码器ES划分为前景编码器EFS与背景编码器EBS两部分。前景编码器EFS将合成图像Ic与前景对象掩码Mfo进行串联后的图像作为输入,输出前脸特征图Xf=EFS(Ic;Mfo)。由于背景物体与阴影之间的关系提供了关键线索,我们采用了现成的LISA模型[32]来进行预测工作,以获得包含所有背景物体与阴影关系的信息,并将这些信息以蒙版Mbos的形式呈现出来。基于Ic与Mbos进行串联后得到输入信号,经过处理后输出出对应的背景特征图Xb=EBS(Ic;Mbos)。在此基础上,通过结合Xf与Xb能够有效地重建完整的深度感知系统框架。
基于复杂的场景几何形状及光源的影响下,在实际应用中各像素区域可能携带不同的光照信息这一前提下
