Advertisement

计算机视觉方向如何阅读一篇论文,以《3D Convolutional Neural Networks for Human Action Recognition》为例

阅读量:

写在前面

在攻读研究生期间阅读论文时常常会遇到诸多困难,在面对复杂的技术领域时容易感到力不从心。尤其是在学习初期接触SLAM技术时(尤其是早期学习SLAM技术时),常常会面临诸多挑战:习惯性地将所有内容一次性进行吸收和理解;花费大量时间进行阅读(尤其是早期学习SLAM技术时),感觉耗时耗力;觉得阅读后并没有带来实质性的收获(尤其是一些基础概念如信息论中的信息 != 知识);所学的内容往往难以直接应用于自己的研究方向(尤其是一些基础概念如信息论中的信息 != 知识)。

等等,自己在这一方面其实一直蛮挣扎的。

为了更好地解决这些问题本身,在偶然间发现了B站在up主软绵绵的小熊猫频道发布的一个视频内容。这个视频让我深刻感受到该方法确实是一个高效实用的选择,并且阅读体验极佳。因此决定利用《3D Convolutional Neural Networks for Human Action Recognition》这篇文章作为练习的机会来开始实践学习的过程。我希望通过这一实践探索能够摸索出一套属于自己的读论文方法,并真正建立自己的知识体系。

在此以《3D Convolutional Neural Networks for Human Action Recognition》为例研读,并有助于养成对学术论文的阅读习惯。今后在阅读学术论文时应保持这种习惯。

〇、Make decision:

The paper explores the application of three-dimensional convolution operations within neural networks for the task of human action recognition.

作者:Shuiwang Ji
好了,自己也没听过,来自于Arizona州立大学

The original method posited that action recognition tasks occur in uncontrolled environments and addressed them using manually crafted features (which implies complexity).
Consequently, this paper introduces a convolutional neural network (CNN)-based approach. While conventional 2D CNNs process video inputs as individual frames, this study proposes a 3D CNN model that effectively captures both temporal and spatial information.

做出决定:
决定结果:精读
做出该决定的日期:4月5日

一、 精读环节

Step1: 提出读过摘要后的问题

自认为对于行为识别领域有一定了解,并且对三维卷积神经网络(3DCNN)也拥有一定的认识基础。然而,在深入系统学习相关研究之前,默认地未曾深入研究过这篇论文。阅读了这篇综述性文章后仍有一些疑问存在

(1)摘要中提到的开放型环境(uncontrolled environment)及其对应的封闭型环境(controlled environment)具体指的是什么?
(2)如何实现从空间和时间两个维度获取信息(即3D CNN具体是如何操作的?)
(3)如何从输入帧生成多通道信息,并通过各通道的融合得到最终的特征表示?

Step2:读Introduction

在阅读这一段时,需持续关注以下几个重点:
(1)上一部分所提出的问题是否在此处得到了扩展;
(2)是否有新增的问题出现;
(3)摘要中提出的诸多问题是否得到了回应。


好的,下面开始进行Introduction部分的阅读:
首先就是第一个问题:

(1)uncontrollable environment与controlled environment的问题
在introduction中,文章讲了03~07年的一些文章都是基于既定环境的(比如small scale and view- point changes),也就可以理解为controlled environment,那么与之相对应的真实环境就可以被理解为uncontrollable environment。
好了,这个问题解决了,我就在之前的第一个问题上画上删除线,代表这个问题可以不用当有很多问好的小朋友了。
(1)摘要中提到的uncontrolled environment以及其相对应的controlled environment到底或者说具体指的是什么?

复制代码
    现在还剩下的问题
    (2)怎么做到既从空间维度又从时间维度来获取信息的(也就是3D CNN具体是怎么操作的?)
    (3)怎么从输入帧生成了多通道的信息,最后的final feature representation又是如何通过各通道的合并在一起的?

好了,接着读Introduction,

重点阐述了深度学习方法的优势及其应用前景。鉴于该研究论文发表于2010年,在当时背景下特别值得关注的是,在当前研究中我对3DCNN的理解仍然有限,并且就剩下的两个关键问题而言,目前并没有显著进展。

第三段可划分为两个方面进行阐述:首先,在将CNN技术应用于视频分析任务方面确实存在相关研究(一项存在的应用),但其主要用途在于分析胚胎发育过程(而非传统2D CNN)。值得注意的是,在这类任务中(即2D CNN的应用场景),模型通常未考虑时间序列特性(Time Series aspect),因此缺乏相应的适应性(Lack of adaptability)。在此基础上展开讨论,则本文探讨的意义就在于能够有效建模时序信息与空间信息之间的关联(Synchronization mechanism)。阅读过程中务必注意回顾之前的疑问或问题(反思环节的重要性),因为通过这一段的学习我发现,在摘要阶段提出的问题并未得到解答(未得到解答的事实),反而在此处引发了更深的困惑(加剧了疑惑)。换句话说,在这一阶段我的思考围绕两个核心问题展开了深入探讨:
(1) 3DCNN究竟采用了何种机制来协调时序特征与空间特征的关系?
(2) 在时空特征融合的过程中是如何实现数据的有效整合的?

带着问题继续阅读。

We also notice that the performance gaps between 3D CNN and other methods tend to become more pronounced when the number of positive training samples is limited.

复制代码
    现在还剩下的问题
    (1)怎么做到既从空间维度又从时间维度来获取信息的(也就是3D CNN具体是怎么操作的?)
    (2)怎么从输入帧生成了多通道的信息,最后的final feature representation又是如何通过各通道
    (3)3DCNN的方法为什么在正例的训练样本小的时候和和其他方法的性能差别会显得特别大?的合并在一起的?

再次作出决定:本篇文章还需要继续阅读吗?
就本文而言:由于我对文章的理解仍有疑问。
因此答案应为Yes,并且建议继续阅读下去。
对于其他文章而言:在到这里解决了读者的基本疑问后,
实际上无需再深入阅读,
因为这会浪费时间。

Step3:读Conclusion

同样地,在文章中将内容划分为两大部分来分析会更加合理。第一部分特别突出了摘要中详细阐述的那一部分内容。此外,在文章结尾还进行了相应的讨论与总结,在第二部分仍然具有重要的意义。如果在那个时代(即2010年),我认为后续的工作可能会更加丰富与深入发展;文章中提到的两种可能性都值得探讨:(1) 基于Hinton提出的深度信念网络体系的发展;(2) 另一个研究方向则是通过非监督学习方法进行训练以替代繁琐的人工标注过程

接下来就是精度方法部分了。

Step4: 精读方法部分

(1)学习每段的核心知识(例如开头和结尾处的内容);
(2)观察图表与数据表格以全面把握整体情况;
(3)完成上述学习后,请权衡利弊后决定是否继续阅读。
(4)如有必要的话,则会深入探讨那个令人觉得棘手的算法部分。(虽然文章本身并没有涉及算法相关内容)
(5)在回顾上述步骤后,请权衡利弊后决定是否进行复现。
复现是一项非常耗费精力的工作,请三思而后行。
如果最终决定进行复现,则需将自己运行后的结果与论文中的结果进行详细对比,
并对出现偏差的原因进行深入分析,
这种探索性思维通常来源于这样的思考路径。

Step5: 关于Related Work的整理

本部分主要探讨了以下两个问题:
(1)第一个问题是判断该文章是否在已有文献的基础上完成;
(2)第二个问题是探讨该文章与现有文献之间的关联性;
(3)第三个问题是分析该文章与现有文献之间的异同点以及借鉴的方法;
(4)第四个问题是考察是否有类似的最新数据集出现及其表现变化

Step6:反思:

过段时间后 有机会回来 想想这些东西有没有价值 为什么大家都这么热衷于参与这些 就把它贴上去自己的看法 并且随时记得将这些**信息转化为个人的知识

好的之后可以称之为《六步论文法》这一套方法适用于一篇论文的情况它特别适合在处理多篇类似文章时需要不断提升信息筛选查找归类概括和整理的能力希望继续保持学习状态

全部评论 (0)

还没有任何评论哟~