Advertisement

【深度学习】【CVPR2019 oral】Weakly Supervised Learning of Instance Segmentation with Inter-pixel

阅读量:

【CVPR2019 oral】Weakly Supervised Learning of Instance Segmentation with Inter-pixel

  • Abstract
  • Step

Abstract

监督信息 : 分类信息
模型框架 :如下图所示
首先从分类模型的注意力图中找出一定区域,然后生成实例的边界区域(主要利用IRNet可以估计各个实例的粗略区域并检测不同类之间的边界)
在这里插入图片描述

Step

训练CAM : Class Attention Map
也就是训练一个分类网络,分类网络是resnet50,将stage1的梯度不变,只fine tune之后的权重。同时去掉了全连接层,将最后一层的输出按行列维度进行均值化[bt, 2048, 1, 1]然后通过一个卷积后reshape成[bt, 20],训练5个epoch,bt=16。

制作CAM

  • 该部分再次将图片分成四个不同尺度的大小(每个尺度都由原图和filp后的原图进行stack,一张图一个尺度通道数变为2,[2,h,w])
  • 依次送到网络(CAM网络,输出[2,20,h,w],将第一个特征图和第二个特征图相加),生成每个该图片所存在类别的CAM(有高像素和原图差不多大小、低像素大概是原图的四倍下采样两种,都是将四个尺度的进行融合),以npy形式存储。记录每张图的有效类别索引,高像素CAM,低像素CAM。

评估CAM
该部分主要通过深度学习库chainercv来进行评估,该库提供了目标检测和语义分割模型。主要是对每一个图片的高像素CAM进行语义分割,然后得到类别的混淆矩阵,最终得到每一个类别的iou指标。

将CAM转换成IRNet的标签
也就是对应4.2节,Inter-pixel Relation Mining from CAMs。

找到confidence fg & bg
对于每一张图片类别的CAM[num_cls, h, w] (存在的类别+背景) , 按类别将大于0.3的看作是前景[h, w],小于0.05的看作是背景,然后经过密集CRF来refine。

结合confidence fg & bg
主要是区分出ignore和背景的区域。

  1. 训练IRNet
    首先按照4.2节描述的分成两个集合,

全部评论 (0)

还没有任何评论哟~