论文笔记:Analyzing Classifiers: Fisher Vectors and Deep Neural Networks
Analyzing Classifiers: Fisher Vectors and Deep Neural Networks(CVPR 2016)
CVPR上的文章,不读一读,你会后悔的。
原文链接:Analyzing Classifiers: Fisher Vectors and Deep Neural Networks
每次读论文都会犯困,除非,我真的看懂了-_-. 所以边做笔记边读,成了读论文的一个好方法。(因为写的时候可以转移注意力啊!!!) 不想简单翻译论文,读的过程中难免有不懂的地方,毕竟小白,有问题请指正。
摘要
利用LRP(Layer-wise Relevance Propagation)构架对FV(Fisher vector)和DNNs(Deep Neural Networks)进行对比。主要进行了3个方面的比较:1)评估分类内容的重要性;2)在重要的图像区域方面进行FV和DNNs的比较;3)检测数据潜在的裂缝(原文flaws)和偏见(原文biases)。 这篇文章利用PASCAL VOC 2007和 ILSVRC 2012数据集。
贡献
-
把On pixel-wise explanations for non-
linear classifier decisions by layer-wise relevance propaga-
tion方法用到FV上,第一次使用相关的传播用到FV上; -
对于单一测试图片用于预测的大量内容进行相关处理;
-
作者使用PASCAL数据集是因为他有bounding box可以作为ground truth;
-
作者的方法能够识别内容和偏离,即使不适用bounding box信息。
原始Fisher Vector

这张图形象表明了从一张图片得到它的Fisher Vector的流程。
计算Fv的不可获取的一步是利用local descriptors 来拟合GMM(混合高斯模型)。设高斯模型个数为K 个,每个都有自己单独的均值 \mu 和协方差矩阵 \Sigma ,每个模型的权重不同,权重用 \pi 来表示,那么混合高斯模型可以表示为 \lambda ={(\pi k, \mu k, \Sigma k)}
每个descriptor都可以跟K个高斯模型组成的混合高斯模型相关


那么每个descriptor l的FV向量表示可以记为

这是一个(1 + 2D)K维的向量,以上(1)(2)(3)式维数分别为1,D,D。
得到图片的每个descriptor的Fv表示之后,我们可以对其取平均值作为整张图片的FV表示。后期可以利用power normalization降低descriptor的稀疏性,或者利用l2 normalization 来提高预测性能。这些后续步骤可以可以在linear SVM中实现,同时相当于对原始FV向量做Hellinger核变换。
评估方法LRP
结论
FV方法根据texture来做决策,忽略了shape信息。
DNN更加依赖轮廓和形状来做决策。
EMMA
SIAT
2017.03.30
