论文翻译:Higher Order Potentials in End-To-End Trainable Conditional Ran-dom Fields
来源为CoRR,带有abs标签,发表于2015年,链接如下
Abstract
我们基于深度学习技术应对语义分割问题。大多数语义分割系统均包含一个条件随机场(CRF)模型以生成与图像视觉特征一致的结构化输出。随着近期深度学习发展执行CRF推断以促进CRF与逐像素卷积神经网络(CNN)分类器联合学习的趋势愈发显著
1. Introduction
在图像中对每个像素进行可视对象类别标签的分配属于语义分割,在赋予每个区域以特定的意义的同时也可以视为识别图像中物体并进行描绘的过程。虽然像素级别的分类器对于精确性任务具有重要意义但也必须注意到语义分割输出结果的一致性同样不可或缺。例如分割边界通常应与图像中的强边缘一致而颜色变化较小的区域应具有相同的标签。
基于深度学习的最新进展推动了研究人员能够开发出更具自动适应性的高级分类器,在卷积神经网络(CNN)中实现了自适应功能的集成与优化[24,40,31]。这些改进型基准体系如PASCAL VOC [10]显著提升了其在语义分割任务中的性能水平,并逐渐成为该领域的重要评价标准之一。
2. Related Work
在深度学习变得突出之前,语义分割用密集的手工特征来执行,这些特征被馈送到每个像素或区域分类器中[39]。由这些分类器做出的个别预测往往是嘈杂的,因为它们缺乏全局上下文,因此被CRF后处理以改进结果,利用先前的知识,例如附近的像素以及相似的像素外观,很可能会共享同一个类的标签。
CRF模型[39]最初只包含一个8邻域中的一元和两两项,Kohli等人显示可能导致收缩偏差[20]。然而,随后提出了对该模型的许多改进,包括:密集连接的成对电势,促进所有图像像素对之间的相互作用[22],为了捕获更多的上下文而制定定义在超过两个节点的集合上的高阶势[20,25] ,建模目标类别的共现[26,34,15],并利用目标探测器的结果[27,45]。
深度学习方面的最新进展使我们能够用专门为语义分割学习的特征代替手工制作的特征。这些表示的优势在[31]中得到了阐述,他们在不使用任何CRF后处理的情况下比之前的手工方法取得了显着的改进。文献[4]的作者进一步改进了分割性能,这是通过后处理CNN的CRF结果而获得的。最近的研究[46,28,38,30]进一步将CRF作为深层网络中的层,并通过反向传播学习了CRF和CNN的参数。
在对常规CRF模型的改进方面,Ladicky [27]提出使用现成的对象检测器来提供语义分割的额外提示。与其他改进边界框检测以产生分割的方法[17,44]不同,该方法使用检测器输出作为软约束,并且因此可以忽略由对象检测器产生的错误。然而,他们的表述使用了图形切割推理,这可能是由于没有密集的成对电势。
我们用与[27]不同的方式来表示检测潜力,以便表示场推断。平均场允许用密集的成对连接进行推理,从而大大提高了准确度[22,4,46]。此外,与我们潜力相关的平均野外更新是可区分的,因此可以在我们的端到端可训练架构中学习其参数。对象检测器也被[45]和[41]所采用,他们也模拟了描述对象假设被接受与否的程度的变量。这被[45]和[41]用来重新定位原始检测,从而提高整体检测性能。我们在模型中采用了类似的技术。
在一个单独的轨道上,[6]利用对象检测的基本事实来弱监督深度神经网络的语义分割训练,从而利用了比分割有更多的对象检测训练数据的事实。古尔德等。 [16]使用语义分割来提出区域检测。通过在图形模型中加强分割区域,对象检测和对象实例之间的一致性,检测和分割两个任务在一个统一的模型中联合执行。然而,贪婪的移动算法被用于推断。这种不可区分的算法尚未被纳入深度学习框架。
我们也注意到,虽然语义分割问题主要是用像素表示的[39,31,46],但有些用超像素表示[2,3,11,7]。超像素可以捕获比单个像素更多的上下文,如果考虑超像素之间的成对相互作用而不是单个像素,计算成本也可以降低[45]。然而,这样的超像素表示假定片段与图像中的对象共享边界,这并不总是正确的。因此,一些作者[25,43]已经使用了超级像素上定义的高阶势,鼓励地区上的标签一致性,但是并没有严格执行。这种方法还允许多层超级像素(不一定形成层次结构)被集成。我们的配方在端到端可训练的CNN中使用这种更高阶的潜能。
除了语义分割之外,图形模型还被用于其他领域,如姿态估计[42],变形部分模型[14]和群体活动识别[8]等。 但是,这些作品使用的模型的性质与我们的差异很大。 一些通过图形模型推理为参数优化提倡梯度反向传播的早期工作包括[36,9,23]和[18]。
我们的工作区别于上述工作,因为据我们所知,我们是第一个提出和进行一个彻底的实验调查的高阶潜力的基础上的检测输出和超像素分割,在CRF是学习端到端 在一个深度网络。
7. Conclusion
我们开发了一个基于两种创新性能力的新CRF模型以解决复杂的语义分割问题。第一种能力源于对直观概念的深入理解即对象检测能够为语义分割提供有价值的提示信息。我们的研究发现这种能力能够主动过滤掉那些与语义分割结果完全不符的对象检测结果。第二种能力则侧重于鼓励超像素区域具有一致标签的特点这使得其与其他常规的一元势和二元势形成良好的协同关系。这些新增的能力能够与其他常见的一元势和二元势协同工作从而在计算过程中依然能够实现有效的平均场推断。
重点在于我们证明即使在引入更高阶势的情况下仍能有效实现平均场推断过程并且这种设计能够在现有架构基础上带来显著提升。
实验结果表明在现有架构基础上引入更高阶的能量项不仅提升了系统的收敛速度而且显著增强了整体表现效果。
