Advertisement

CVPR 2019 开源论文 | 基于翻译向量的图像翻译

阅读量:
640

作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译

图像翻译一般涉及两个核心挑战:将源域图像转换为目标域图像,并确保生成的图像与原始图像具有相似性。基于生成对抗网络(GAN)模型能够有效地应对第一个挑战。然而,在解决第二个挑战方面,大多数模型都采取了类似的策略:例如,在生成器的某些层中采用跨域权重耦合策略或引入循环一致性损失函数等方法。然而这种策略不仅可能导致模型多样性降低还可能阻碍其学习必要的映射关系

因此作者提出了一种通过三个网络体系实现图像是非生物到生物转换的方法:Generator, Discriminator 以及 Siamese ,其中前两个网络主要用于将源域图片转化为目标域图片;第三个模块——Siamese 网络则专注于提取并学习图片间的高级语义特征,并以此确保生成的图片在视觉上与原生图片具有高度相似性。

640?wx_fmt=png
640?wx_fmt=png

模型架构

TraVeLGAN主要由三个组件构成,其架构示于图1.其中,生成器和判别器类似于现有的大多数基于GAN的图像翻译模型,均采用U-Net架构将源域图像转换至目标域图像;同时,采用了双子网络结构(Siamese网络)以提取图像的高级语义特征.

640?wx_fmt=png

▲ 图1. TraVeLGAN模型架构

该方法旨在通过Siamese网络确保原域内任意两张图像之间的显著的语义特征差异。

640?wx_fmt=png

与对应翻译后图像间的高级语义特征差保持一致,即:

640?wx_fmt=png

作者将

640?wx_fmt=png

被定义为模型的翻译向量这一部分对应的损失函数如下。与Generator和Discriminator之间相互对抗的关系不同,在这里Siamese与Generator是相互协作的两者均希望最小化

640?wx_fmt=png

损失。

640?wx_fmt=png

为了防止Siamese网络偏向于导致损失降至零的情况出现,该网络还必须确保每个样本与其潜在空间中的对应样本之间保持至少δ的距离。

640?wx_fmt=png

因此模型整体架构的损失函数如下所述,在鉴别器层面它只需专注于对抗损失即可。

640?wx_fmt=png

实验结果

作者重点研究了传统图像翻译模型常用的一些典型数据集类型,其中包括如苹果至橙子、梵高至风景画、草图至鞋等差异不大的数据集进行了对比实验;同时又采用了ImageNet中来自abacus、crossword、volcano及jack-o-lantern等差异较大的数据集来进行进一步验证。

640?wx_fmt=png

▲ 图2. 相似域翻译的实验结果

为了评估相似域间图像的翻译效果,作者采用了 SSIM 结构相似性这一指标。具体数据见表 1,请注意其中关键对比实验包括 CycleGAN 模型及其衍生版本。由此可见,在处理相似域间的图像翻译问题时,TraVeLGAN 的性能与 CycleGAN 模型具有相当程度的一致性。值得注意的是这表明即使在不施加生成器限制的情况下我们依然能够获得令人满意的翻译效果

640?wx_fmt=png

▲ 表1. 相似域间的 SSIM 得分

该研究发现,在处理强异构性图像翻译时,通过引入Siamese网络结构后, TraVeLGAN能够更有效地提取并学习复杂的语义特征。如图3所示,在算盘中的黑色珠子与填字游戏的黑/白方块之间建立了明确的对应关系。相比之下,在仅具备单向映射能力的情况下,CycelGAN无法准确实现这种对应关系.因此,在处理强异构性图像翻译任务时, TraVeLGAN 显示出显著的优势.

640?wx_fmt=png

▲ 图3. TraVeLGAN vs CycelGAN

因为强异构性域图像翻译的目标已不再是追求译出图像与源域图像的相似度, 所以作者运用了FID分数以及判别器分数作为评估模型性能的标准. 根据表2的数据对比可知, 在处理强异构性域的图像翻译任务上, 在对比CycelGAN及其变种模型TraVeLGAN而言, 提出的方法表现更为优异. 具体效果如图4所示.

640?wx_fmt=png

▲ 表2. 强异构型域间 FID 得分

640?wx_fmt=png

▲ 图4. 强异构性域间翻译效果

总结

目前大多数无监督图像翻译主要依赖于约束机制来确保输出图像与原始领域间的相似度。然而这种约束可能会制约模型的能力从而降低其多模态表现。作者发现引入双网络架构能够使模型在不削弱现有性能的情况下实现 强异构 型译码,并且有效指导生成器输出更为逼真自然的结果。无疑如此为后续更为灵活多样的图像译码方法设计提供了新思路。

640?

点击以下标题查看更多往期内容:


**

640?

****#**投 稿 通 道#

让你的论文被更多人看到

如何让更多的优质内容通过更短路径到达读者群体?答案是:不认识的人更容易接触到优质内容。

一些人虽然对你不熟悉,但却了解你的兴趣与需求。PaperWeekly 或许能起到一个连接作用,促进来自不同背景与领域的专家进行交流与碰撞,从而激发更多的创新活力。

PaperWeekly 提供一个平台支持高校实验室和个人分享高质量的学习资源。平台上的用户可以贡献各种类型的优质内容包括前沿论文解读、个人学习感悟以及专业的技术干货。我们唯一的共同目标就是促进知识的广泛传播和交流。

? 来稿标准:

稿件为个人原创内容 ,投稿者需提供相关信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

?

现在,在**「知乎」** 也能找到我们了

进入知乎首页搜索**「PaperWeekly」**

点击**「关注」** 订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个归纳总结、深入分析、分享观点以及跟踪进展人工智能前沿论文成果的学术平台。如需深入研究或关注AI领域,请扫描下方二维码加入我们的专业交流群。

640?

▽ 点击 | 阅读原文 | 下载论文 & 源码

全部评论 (0)

还没有任何评论哟~