Advertisement

1、《Rich feature hierarchies for accurate object detection and semantic segmentation-v5》

阅读量:

一、背景

传统的目标识别方法在当时的数据集上性能逐渐平缓,一般效果较好的都是复杂的集成系统,(由多个低水平的特征组成高水平特征)。与此同时,ALEXNET在目标分类上的优越表现给了作者灵感,是否能够将这种提取特征的方法应用于目标检测。

二、两个问题

  1. 如何利用深度网络去做目标定位?
  2. 如何在一个较小的数据集上训练能力强劲的网络模型?

三、两个解决办法

1、首先生成 region proposals(候选区域)输入到特征提取模块(CNN by Krizhevsky)中,每个候选区域提取4096维特征。

2、pretrained the CNN on ILSVRC2012(在这个数据集上预先训练了CNN),再通过PASCAL进行微调。

三、文章整体结构

1、Abstract(摘要)

2、Introduction(引言):介绍了目标检测和语义分割领域的背景,强调了现有方法的不足,尤其是传统计算机视觉方法在特征提取上的瓶颈。

3、使用R-CNN进行目标检测:

(1)通过选择性搜索生成候选区域。

(2)使用深度卷积神经网络(基于AlexNet)提取候选区域的特征。

(3)对每个候选区域的特征进行分类(使用SVM),并通过回归模型来精确调整检测框的边界。

4、实验与结果:特征可视化、模型比较、模型误差

(1)特征可视化:非参数方法是选择一个特定的神经元(第五层)然后输入约1000万个候选区域进行评分,由高到低排序后再有非极大抑制选择候选框,最后展示得分最高的区域实现可视化。

5、ILSVRC2013数据集的使用(严重依赖验证集,同时对验证集进行分割且借助一部分训练集的正样本图像。分割时要保持均衡)

6、讨论:这一部分分析了模型的性能瓶颈、计算开销,并讨论了该模型的可能改进方向,如在速度和精度上进一步优化。

四、创新点

  1. 使用了CNN对特征进行提取
  2. 迁移学习训练CNN
  3. 特征可视化:采用非参数方法(选择一个神经元输入候选区域看对哪个区域激活值最高,再使用非极大抑制去除重复区域)

全部评论 (0)

还没有任何评论哟~