Advertisement

[论文笔记]自监督sketch-to-image生成:Self-Supervised Sketch-to-Image Synthesis

阅读量:

前言: 在2020年的顶级会议上(顶会),共同出现了两篇引人注目的论文——《Self-Supervised Sketch-to-Image Synthesis》与《Unsupervised Sketch-to-Photo Synthesis》。它们分别采用了自监督学习与无监督学习的技术实现图像合成功能,在该领域应用上达到了最高水平。

目录

主要贡献

主要工作

域转换模型TOM

PS:边缘图、铅笔画图、草图sketch之间的区别

整体流程

​编辑

风格编码器​编辑

内容编码器​编辑

总loss

论文复现

在线体验

代码地址

数据集下载

TOM运行结果

论文地址和代码

个人感悟

参考


主要贡献

通过一种自我监督学习的方法探索基于范例的草图到图像(s2i)综合任务,并取消了配对草图数据的需求

基于合成配对数据开发了一个自我监督自动编码器(AE),实现了在草图与RGB图像之间有效地分离内容与风格特征,并生成了既具有草图特征又具RGB图像风格的新图像。

通过优化高分辨率合成的质量, 借助对抗网络模型来增强图像细节的表现力.

4、借助所开发的草图生成器这一工具,在风格融合与风格迁移两个方面均展现了显著的能力。这一创新使得生成的图像既保持了统一的艺术风格,同时又能传达清晰的意义。

主要工作

开发了一个适用于通用RGB数据集的线条草图生成器,并且该生成器能够为每幅图像产生多幅草图。(值得注意的是,在此之前已有许多研究者致力于开发类似的技术)

该系统针对s2i任务开发了一种高效自监督自编码器,并采用基于动量的互信息最小化损失方法以更清晰地分离出内容与风格特征。

开发出了创新性地优化了DMI方法,并结合AdaIN架构(Huang等,2017年),显著提升了整体效能。

实证表明该方法在高分辨率的s2i任务以及具备良好语义推断能力的样式转移任务方面表现优异。

域转换模型TOM

基于GAN(生成对抗网络)的域转换模型TOM能够为图像领域中的每张图片生成多幅配对草图。其基础构成示意图如下所示。

我对这方面也不是特别熟悉,在此也不便过多阐述。然而我了解到存在一些类似的模型,在具体实现方面似乎未做文献引用。独立地提出一个新的模型,在现有研究基础上缺乏与其他主流方法之间的对比分析和深入讨论。这明显反映出作者在该领域的投入是相当巨大的努力和时间所累积的结果。但我个人对此种研究路径并不十分认同。

仅仅和canny、HED对比并不能说明方法的先进性!

PS:边缘图、铅笔画图、草图sketch之间的区别

目前公开的RGB图像数据集与之配对的比例极为有限。生成精确的线条草图是一项具有挑战性的任务。经典的边缘检测方法(如Canny算法于1986年提出;Xie和Tu在2015年发表的研究)可作为一种模拟配对草图的方法;然而,在真实性和准确性方面存在明显不足。此外,在泛化能力方面也表现欠佳:这会导致线条出现缺失或分布分散的问题。近年来已有专门针对深度学习模型合成草图的研究(包括Chen等人在2018年的研究;Li等人于2019年的探索;Yu等人在2020年的创新),但这些模型大多专注于铅笔风格的手绘草图,并且多局限于特定领域(例如仅适用于人脸部位)。相反地,我们关注的是由简单线条构成的手绘风格草图(如Simo-Serra等人于2018年的研究),这种画法具有快速绘制的特点,并且应该体现出随机形状变形的特点——即线条既不是严格的直线也不是连续而不断延伸的线条形式。

整体流程

风格编码器

E_{style}

为了解析Style的平移不变样式特征,并模仿内容特性保持稳定,在模型训练阶段,我们采用了图像平移变换技术对输入样本进行增强处理。具体而言,在每一批次的数据中,我们将原始图像按照裁剪、水平翻转、旋转和缩放四种变换策略随机组合,并将其应用于原始样本以提升模型泛化能力。

I_{rgb}

上。

然后用一个triplet loss衡量:

内容编码器

E_{content}

边缘在图像合成过程中与输入和预期生成图像之间的边缘具有显著的像素对齐特性。相比之下,在现实世界中绘制的手绘草图通常会体现出更多的不确定性与形变特性。因此,在错位的情况下模型仍需具备相应的适应能力以输出合理的内容。通过增强数据处理以提高模型提取内容特征的能力

通过TOM获得了每一个图像的不同合成草图(包括不同直线度、粗细和构成)。随后,在每幅草图上实施遮蔽随机小区域后进行处理以消除线条延续性问题。采用三重采样策略使得与同一Irgb相关的各个草图均呈现出一致的特征映射特性。

总loss

论文复现

在线体验

作者给了一个演示的体验网址:

Playform

需要注册登录后才能使用,sketch的功能需要get credit,emmmm那告辞了

代码地址

This repository hosts the PyTorch implementation of the article titled 'Self-Supervised Sketch-to-Image Synthesis' presented at AAAI-2021.

数据集下载

原先的谷歌云盘下载地址下了三天三夜,我放在百度网盘了,自取:

链接:https://pan.baidu.com/s/1nTfxXBkON1LvRUw1HGdMZA?pwd=1111
提取码:1111

TOM运行结果

我只能与Photoshop的效果不相上下吧?平平无奇者也!远非论文里夸大宣传的程度。

复现代码的时候有不少bug:

train_step_2_gan.py中,导入模块的名字写错了:

复制代码
    from evaluate.generate_image_matrix import make_matrix
    
    AI助手

提的issue没人回复,我解决了但是issue已经关闭,作者不太负责!

在数据集中读取时出现了问题,在这个问题上折腾了半天还是没能找到解决办法。看来可能是数据集本身存在缺陷,在sketch和image中索引对应不上


我付出了不少努力,在edges2shoe数据集上成功完成了对比实验并顺利跑通!虽然如此但也不妨庆祝一下吧!值得注意的是 作者提供的数据集可能存在一定的问题 需要提醒大家在调试过程中务必将每个frame打印出来并检查是否为空 这可能就是导致问题的关键所在

论文地址和代码

个人感悟

最大的槽点: 作者强调自己是手绘草图,不是铅笔画图,结果是这样:

与真实的草图相比仍存在明显差异。在经过真实sketch数据集如QuickDraw的训练后,模型表现大打折扣。

第二个问题在于作者未开放模型下载。该研究者自行运行代码后发现无法达到论文声称的效果水平,并且因无法获取回应而未能进一步沟通。

参考

全部评论 (0)

还没有任何评论哟~