图像翻译、语义分割、域适应、图像检索、无监督学习cvpr2021
CVPR 2021 论文摘要涵盖了多个领域,包括图像到图像翻译、人像修饰、语义分割、域适应、无监督学习、视线估计和光流方法。具体而言,论文提出了一种实时高分辨率图像到图像翻译模型(LPTN),构建了大规模人像修饰数据集(PPR10K),提出了一种基于显著检测的弱监督语义分割方法(EPS),解决了开放集全景分割任务,提出了一种无监督域适应框架(EOPSN),实现了高效的定向哈希攻击(ProS-GAN),并从弱监督视角估计视线(LAEO)。此外,SMURF方法显著提升了无监督光流的性能,超越了有监督方法。这些研究展示了计算机视觉领域的最新进展,为相关任务提供了新的解决方案和基准。
CV君一直在整理 CVPR 2021 论文:
https://github.com/52CV/CVPR-2021-Papers
本文深入探讨CVPR 2021年几篇值得关注的开源论文,涵盖以下领域:图像到图像翻译、全景分割、语义分割、域适应、图像检索,以及无监督学习。此外,还有一篇关于首次从人们相互注视的图像/视频中学习弱监督三维视线范式(LAEO)的研究。
相信其中有些工作肯定会让你大开眼界。
01
High-Definition Photorealistic Image Synthesis in Real-Time: Laplacian Pyramid-Based Translation System
来自香港理工大学&阿里达摩院
作者报道,其团队在4K分辨率图像上首次实现了逼真图像到图像翻译(I2IT)的实时效果。此外,在保持轻量化和快速推理的模型架构下,该方法在转换能力和逼真度方面,均在逼真的I2IT应用领域达到了与现有先进方法相当甚至更好的性能。通过定性和定量的实验结果验证,所提出的方法在性能上具有竞争力。
论文链接:https://arxiv.org/abs/2105.09188
项目链接:https://github.com/csjliang/LPTN

标签:图像到图像翻译
02
PPR10K: 一个大规模的图像修复数据集,包含人区域遮罩和组级一致性
来自香港理工大学&阿里达摩院
与一般的人像照片修饰任务不同,PPR的主要目标是提升多组外观扁平的人像照片的视觉质量。这些特殊要求体现在两个关键方面:HRP和GLC。HRP着重关注人体区域的细节处理,而GLC则要求对一组人像照片进行色调统一的修饰。值得注意的是,现有模型在PPR任务上的表现无法达到预期效果。
为深入研究这一高频任务,作者在本次工作中构建了一个大规模的PPR数据集,命名为PPR10K,并认为这是首个具有此类相关性的数据集。该数据集包含1,681组,每组包含11,161张高质量原始人像照片,这些照片还附有高分辨率的人类区域分割掩码。每位专家对每张原始照片进行独立修饰,确保每组照片色调统一。作者开发了一套科学的评估PPR性能的标准,并提出了一种学习能够同时优化HRP和GLC性能的PPR模型的方法。该数据集为研究自动化的PPR方法提供了理想的基准,实验结果表明,所提出的策略显著提升了修饰效果。
论文链接:https://arxiv.org/abs/2105.09180
项目链接:https://github.com/csjliang/PPR10K

标签:portrait photo retouching+数据集
03
Railway is not a Train: Saliency can be treated as pseudo-pixel supervision in the context of weakly supervised semantic segmentation.
来自延世大学&成均馆大学
在现有研究中,基于图像级弱监督的弱监督语义分割(WSSS)方法存在以下局限性:首先,稀疏对象的空间覆盖(spatial coverage of sparse objects)是一个关键问题;其次,物体边界检测的准确性(inaccurate boundary detection of objects)有待提升;此外,来自非目标对象的像素的共同出现也带来了挑战(challenge)。
本次工作所提出方案:提出了一种名为Explicit Pseudo-pixel Supervision(EPS)的新方法,通过融合两个弱监督,从像素级别的反馈中学习。在图像级标签方面,我们构建了localization map,并结合了来自现成显著检测模型的边界信息,从而获得了丰富的saliency map来辅助目标身份识别。在此基础上,我们设计了一种联合训练策略,能够充分利用两种信息之间的互补性。通过该方法,我们不仅实现了准确的物体边界提取,还成功去除了共同出现的像素点,从而显著提升了伪掩码(pseudo-masks)的质量。
实验结果表明,该方法通过克服WSSS的关键挑战,在PASCAL VOC 2012和MS COCO 2014数据集上显著优于现有方法,并达成了新的 SOTA水平。
论文链接:https://arxiv.org/abs/2105.08965
项目链接:https://github.com/halbielee/EPS

标签:语义分割
04
Exemplar-Based Open-Set Panoptic Segmentation Network
来自首尔大学&Adobe Research
该文首先阐述了开放集全景分割(OPS)任务的基本概念,并深入探讨了该任务所面临的核心挑战。通过合理的假设,使得该任务得以实现。随后,该文对COCO数据集进行重构,构建了一个新的OPS基准,并作为Panoptic FPN的一种改进版本,展示了该基准的基本性能水平。EOPSN框架基于典范理论,其在检测和分割未知类别实例方面表现出良好的效果。
论文链接:https://arxiv.org/abs/2105.08336
项目链接:https://github.com/jd730/EOPSN
主页地址:https://cv.snu.ac.kr/research/EOPSN/

标签:全景分割+开放集
05
Learning to Leverage Depth Information and Semantic Relationships for Unsupervised Domain Adaptation
来自苏黎世联邦理工学院
本研究提出了一种基于UDA框架的语义分割与单目深度估计集成方法。本方法的创新点主要体现在以下几个方面:首先,本方法引入了Cross-Task Relation Layer(CTRL),该模块旨在通过构建一个联合特征空间实现跨域特征对齐。该联合特征空间不仅整合了各任务的特定特征,还成功建模了不同任务间的依赖关系,这为UDA学习提供了重要支持。通过语义精炼模块(Semantic Refinement Head,SRH),本方法能够有效学习各任务间的关联性。深度离散技术模块则有助于深入刻画不同语义类别与不同深度层级之间的独特关联。迭代自学习机制(Iterative Self-Learning,ISL)则通过利用目标域的高置信度预测结果,进一步提升了模型的性能水平。
在三个具有挑战性的UDA基准上,所提出的方法始终显著超越了先前的工作。
论文链接:https://arxiv.org/abs/2105.07830
项目链接:https://github.com/susaha/ctrl-uda

标签:域适应
06
An example-guided adversarial network is developed for the targeted attack of deep hashing.
源自哈工大深圳分院、鹏城实验室、港中文、深圳市大数据研究院、电子科技大学、Koala Uran Tech
该文提出了一种用于灵活且高效的定向哈希攻击的 prototype-supervised adversarial network(ProS-GAN)。该网络由PrototypeNet、生成模块以及判别器三部分构成。实验结果表明,ProS-GAN不仅具有卓越且高效的攻击性能,相比当前最先进的深度哈希定向攻击方法,还具有显著的迁移优势。
论文链接:https://arxiv.org/abs/2105.07553
项目链接:https://github.com/xunguangwang/ProS-GAN

标签:图像检索+对抗攻击
07
Weakly-Supervised Physically Unconstrained Gaze Estimation
来自英伟达&罗切斯特理工大学&Lunit Inc
本研究关注的问题是基于视频中人类互动的行为进行弱监督的视线估计。其核心依据是人们在执行 "相互注视"(LAEO)活动时所展现的与视线相关的显著几何约束这一发现。通过设计一种新型训练算法和几个专为本任务量身定制的损失函数,可以从 LAEO 标签中提取出有效的三维视线监督信息。在经过弱监督的两个大规模数据集CMU-Panoptic和AVA-LAEO的训练后,本研究验证了半监督视线估计方法的高准确性和在跨域泛化方面显著超越了现有的物理无约束基准Gaze360。
论文链接:https://arxiv.org/abs/2105.09803
项目链接:https://github.com/NVlabs/weakly-supervised-gaze

标签:CVPR 2021 Oral+视线估计
08
SMURF: Self-Learning Multi-View Self-Directed Optical Flow Tracker with Image-to-Image Warping
来自谷歌&Waymo
SMURF 是一种适用于无监督学习光流的先进方法,在各项基准测试中实现了显著提升,较之于目前最优的有监督方法UFlow,其性能提升幅度达到36%至40%,更胜一筹。该技术通过将有监督光流的结构改进与无监督学习的新思路相结合,实现了更优的效果。具体而言,该方法包含序列感知的自监督损失项、处理帧间运动的技术以及多帧数据学习的有效机制,同时保持了仅需两帧进行推理的特点。
论文链接:https://arxiv.org/abs/2105.07014
项目链接位于https://github.com/google-research/google-research/tree/master/smurf。

标签:无监督学习
- END -
编辑:CV君
转载请联系本公众号授权
