中国计算机视觉大会水平,优必选8篇论文入选ECCV 2018 计算机视觉顶级会议见证中国力量...
9月8日,ECCV 2018(European Conference on Computer Vision,
第24届计算机视觉欧洲会议(ECCV)于德国慕尼黑顺利召开。作为全球知名的计算机视觉领域顶级学术会议之一,ECCV常与CVPR、ICCV等并称为该领域最具影响力的三大国际会议之一。值得注意的是,本届会议创下新高纪录,在线注册参会者总数达近3200人,共有投稿论文2439篇,其中被接收的论文有776篇。
今年年头,悉尼AI研究院所属的优必选公司共获得8篇论文入选国际顶级学术会议的通知。该院再次以中国企业的身份在国际顶级学术会议上崭露头角,并以此彰显中国人工智能技术的力量。
以下是优必选悉尼AI研究院此次入选ECCV 2018的8篇论文的解读:
论文1:Correcting the Triplet Selection Bias for Triplet Loss.

三元组损失函数被广泛应用于度量学习领域,并在其应用已在多个计算机视觉领域取得了显著成果,并在细粒度图像分类问题上表现出色。
图像检索与人脸识别技术在现代计算机视觉领域发挥着重要作用。值得注意的是,三元组的数量会随着训练数据集规模的增大呈立方级增长。其中,有效的三元组采样方法对于提升三元组损失函数训练效率具有重要意义。值得指出的是,在实际应用中发现该方法对不同采样策略的选择极其敏感。
例如,在实际应用中, 我们采用随机选取的三元组时, 算法难以收敛; 当采用最困难的三元组时, 算法会收敛至较差的局部极小值区域。
我们注意到,在现有研究中存在一种问题:即采样偏差对提升模型性能的影响较为显著。
在Online Products数据集上,我们进行了大规模的图像检索实验。实验结果证明了自适应的三元组损失函数的有效性。
FishEyeRecNet:一种基于多上下文协作深度学习框架用于鱼眼图像处理
Image Rectification
由鱼眼相机拍摄的照片违反了针孔相机模型的基本假设而产生了变形扭曲现象。在计算机视觉领域中,
针对鱼眼图像校正这一预处理步骤被公认为一项至关重要的技术环节。
本文开发了一种端到端多语境协作深度网络,
能够有效去除单张鱼眼照片中的形变扭曲。
与传统方法相比,
我们的创新之处在于通过自动学习的方式获取图像高层语义信息与低层细节特征,
从而估计出变形参数。
为了提升模型训练效果,
我们构建了一个包含不同场景与多样相机参数的数据集。
经过在上述数据集以及真实采集的鱼眼图像上的实验测试,
我们发现所提出的算法相较于现有最优算法能获得更为优异的表现。
论文3:Learning with biased complementary labels
本文探讨了一种新型的分类问题。在这一问题下,我们可以获取一些比真实标记更容易获得的替代标记:即补偿标记。具体来说,在补偿标记的情况下,每个观测样本被指定为不属于某一特定类别的判断依据。
分别用X和Z表示真实类别标签与补偿标签, 其中c代表总的类目数量。在研究过程中, 我们基于转移概率矩阵P(Y→X)进行建模与分析, 并通过实验验证其有效性。
?=i│Y=j),i≠j∈{1,?,c}来对补偿标签的产生建模。之前的方法隐含地假设概率P(Y
在条件空间?=i│Y=j),i≠j时,假设当i≠j时这些条件都是相同的。然而,在实际应用中这是难以实现的,因为标注过程往往受到个体经验和主观判断的影响。例如,一位熟悉猴子的人在给狐獴打补偿标签时可能会倾向于使用"猴子"作为补偿类别,这与草原犬鼠的真实类别存在差异。由此推断出转移概率存在差异性特征,进而提出了针对现有标注方法中存在的偏见问题的新框架。该框架主要包括以下三点创新:(1)提出了一种无偏估计转移概率的新方法;(2)提出了一种改进传统损失函数的方法,并将其结合到深度神经网络分类器的研究中;(3)通过理论分析证明了基于补偿标签训练出的分类器能够收敛至最优分类器状态。通过全面实验对比分析表明,所提出的框架在性能提升方面优于现有最佳方案。
论文4:Attention-GAN for Object Transfiguration in Wild Images
本篇论文探讨野外场景中的图像目标变换问题。在经典的对抗生成网络模型(GANs)中,生成网络通常会执行两个关键环节:首先检测目标区域;随后将目标从一个域变换到另一个域。与传统的生成模型不同,本文将生成网络拆解为两个独立子网络,各自完成特定功能:一个是专注于预测图片的空间注意力热力图;另一个则负责约束注意力热力图为稀疏图,确保其前后一致性。此外,当图像语义分割标记可获取时,我们可利用分割图来指导注意力网络的学习过程。实验结果表明,引入注意力模型对于解决目标转换问题具有重要意义;本文提出的方法不仅能够更精确地预测出注意力热力图,还显著提升了生成图像的质量
Multimodal Cross-Domain Generalizable Models via Conditional Invariant Adversarial Learning
Networks

在域自适应学习中基于多个相关领域我们致力于从源领域训练出一个能在目标领域良好推广的分类模型。各领域间的样本分布存在显著差异这使得域自适应学习的关键难点在于重点提取跨领域稳定的特征表示。在实际应用中现有研究通常基于条件概率P(Y|X)来建模数据关系
在不同领域间存在恒定特性,在这种情况下这些技术仅需关注一个稳定属性T(X),而这一变化有助于降低不同领域间边缘概率分布P(T(X))间的差异。然而,在实际情形中假设条件概率分布P(Y|X)
在不同领域之间保持一致通常是没有保证的。此外,现有方法往往依赖于线性映射或简单的神经网络模型来提取特征T(X),这使得其学习能力难以有效提取特征。为了克服上述问题,在此提出了一种端到端条件概率保持稳定的域自适应神经网络体系结构。该体系结构利用神经网络实现对保持一致特征的学习过程,并通过一种条件稳定的对抗结构来实现这一目标。该对抗结构能够在目标领域样本类别分布不是严重失衡的情况下,并能保证源领域与目标领域的联合概率分布P(T(X, y|x))得以稳定维持。
Y) 之间的等价关系。我们从多个实验中证明了我们方法的有效性。
论文6:Context Refinement for Object Detection

当前二阶段目标检测系统主要包含两个功能模块:候选框生成模块与候选框优化模块。针对那些定位精度较低的候选框实例,在该系统中可能会导致不可靠的检测结果。我们对此问题进行了深入探讨,并尝试通过整合附近位置上具有有益上下文信息的其他候选人实例来加以改善。具体而言,在每一个待处理的目标实例下标出区域后 bounding box, 我们首先识别出与其位置邻近且携带丰富语义信息的目标实例集合, 然后基于这些辅助实例所提取和融合得到的具体语义特征, 对原始目标实例进行上下文关系建模与优化处理。在实际应用中, 该方法不仅显著提升了最终目标实例检测的质量, 同时也显著提高了原始候选人实例的质量指标. 实验研究表明, 所提出的方法能够在多个基准测试集上实现对现有基础检测系统的性能提升效果. 具体而言, 在PASCAL VOC 2012基准测试集上, 我们的改进方法能够带来平均约15%到20%的成功率提升; 同时在其他相关评估指标上也展现出显著的优势
VOC和MS COCO两个基准数据集上为基线检测器分别带来了3%和6%的提升。
论文7:Selective Zero-Shot Classi_cation with Augmented Attributes
在本文中,我们引入了一个selective
零示例分类问题:分类器如何避免预测结果模糊不清?现有的基于属性的零示例分类方法在选择性分类过程中效果欠佳。我们发现由于不完全的人类定义属性词汇而导致效果不佳。本文提出了一种结合了人工定义与自动生成残差属性的新方法。
zero-shot 分类器。该分类器首先通过共同学习的方式获取定义属性及其残差特征。接着,在由定义属性所构成的空间中执行预测过程。最后阶段,则通过整合定义 attribute 与 residual feature 来评估 prediction 的信任度水平。基于多个基准测试集的数据验证,在 risk-coverage 的权衡指标方面表现出了超越现有方法的优势。
论文8:Stroke Controllable Fast Style Transfer with Adaptive Receptive
Fields?

最近本研究开发了一种快速风格转移方法以实现实时照片的艺术化转换效果。这项任务虽然面临挑战但仍是当前领域的重要课题之一。在本研究中我们构建并测试了一种新型的设计方案即一种可实现连续与空间范围内的线条尺寸调节能力的可调控线框传输网络。通过对影响线条宽度大小的关键因素进行深入探讨我们建议应特别关注感知域大小与艺术风格图像的比例特征关系并据此设计了一个新型模块即StrokePyramid模块这种模块能够为网络提供动态适应感知域大小的能力从而优化整体性能表现。此外我们还设计并实现了两种不同的训练策略分别用于加速模型收敛过程以及扩展其线条规模选择能力这两项创新性措施共同构成了一个完整的在线式线条调节框架系统通过这种方法我们的实验结果表明所开发的实时控制方案不仅能够连续调节线条宽度大小而且能够在输出图像的不同区域生成不同尺度的线条从而实现了更灵活自然的艺术效果表现。
(免责声明如下:此信息来源为网站转载自其他网站的信息内容,请特别注意此信息仅为传递更多信息的目的,并不反映本网站的观点或立场。同样不表示对该内容的真实性作出任何肯定或否定的评价。)

