【深度学习】【CVPR2019 oral】Weakly Supervised Learning of Instance Segmentation with Inter-pixel
发布时间
阅读量:
阅读量
【CVPR2019 oral】Weakly Supervised Learning of Instance Segmentation with Inter-pixel
- Abstract
- Step
Abstract
监督信息 : 分类信息
模型框架 :如下图所示
首先从分类模型的注意力图中找出一定区域,然后生成实例的边界区域(主要利用IRNet可以估计各个实例的粗略区域并检测不同类之间的边界)

Step
训练CAM : Class Attention Map
也就是训练一个分类网络,分类网络是resnet50,将stage1的梯度不变,只fine tune之后的权重。同时去掉了全连接层,将最后一层的输出按行列维度进行均值化[bt, 2048, 1, 1]然后通过一个卷积后reshape成[bt, 20],训练5个epoch,bt=16。
制作CAM
- 该部分再次将图片分成四个不同尺度的大小(每个尺度都由原图和filp后的原图进行stack,一张图一个尺度通道数变为2,[2,h,w])
- 依次送到网络(CAM网络,输出[2,20,h,w],将第一个特征图和第二个特征图相加),生成每个该图片所存在类别的CAM(有高像素和原图差不多大小、低像素大概是原图的四倍下采样两种,都是将四个尺度的进行融合),以npy形式存储。记录每张图的有效类别索引,高像素CAM,低像素CAM。
评估CAM
该部分主要通过深度学习库chainercv来进行评估,该库提供了目标检测和语义分割模型。主要是对每一个图片的高像素CAM进行语义分割,然后得到类别的混淆矩阵,最终得到每一个类别的iou指标。
将CAM转换成IRNet的标签
也就是对应4.2节,Inter-pixel Relation Mining from CAMs。
找到confidence fg & bg
对于每一张图片类别的CAM[num_cls, h, w] (存在的类别+背景) , 按类别将大于0.3的看作是前景[h, w],小于0.05的看作是背景,然后经过密集CRF来refine。
结合confidence fg & bg
主要是区分出ignore和背景的区域。
- 训练IRNet
首先按照4.2节描述的分成两个集合,
全部评论 (0)
还没有任何评论哟~
