1、《Rich feature hierarchies for accurate object detection and semantic segmentation-v5》
发布时间
阅读量:
阅读量
一、背景
传统的目标识别方法在当时的数据集上性能逐渐平缓,一般效果较好的都是复杂的集成系统,(由多个低水平的特征组成高水平特征)。与此同时,ALEXNET在目标分类上的优越表现给了作者灵感,是否能够将这种提取特征的方法应用于目标检测。
二、两个问题
- 如何利用深度网络去做目标定位?
- 如何在一个较小的数据集上训练能力强劲的网络模型?
三、两个解决办法
1、首先生成 region proposals(候选区域)输入到特征提取模块(CNN by Krizhevsky)中,每个候选区域提取4096维特征。
2、pretrained the CNN on ILSVRC2012(在这个数据集上预先训练了CNN),再通过PASCAL进行微调。
三、文章整体结构
1、Abstract(摘要)
2、Introduction(引言):介绍了目标检测和语义分割领域的背景,强调了现有方法的不足,尤其是传统计算机视觉方法在特征提取上的瓶颈。
3、使用R-CNN进行目标检测:
(1)通过选择性搜索生成候选区域。
(2)使用深度卷积神经网络(基于AlexNet)提取候选区域的特征。
(3)对每个候选区域的特征进行分类(使用SVM),并通过回归模型来精确调整检测框的边界。
4、实验与结果:特征可视化、模型比较、模型误差
(1)特征可视化:非参数方法是选择一个特定的神经元(第五层)然后输入约1000万个候选区域进行评分,由高到低排序后再有非极大抑制选择候选框,最后展示得分最高的区域实现可视化。
5、ILSVRC2013数据集的使用(严重依赖验证集,同时对验证集进行分割且借助一部分训练集的正样本图像。分割时要保持均衡)
6、讨论:这一部分分析了模型的性能瓶颈、计算开销,并讨论了该模型的可能改进方向,如在速度和精度上进一步优化。
四、创新点
- 使用了CNN对特征进行提取
- 迁移学习训练CNN
- 特征可视化:采用非参数方法(选择一个神经元输入候选区域看对哪个区域激活值最高,再使用非极大抑制去除重复区域)
全部评论 (0)
还没有任何评论哟~
