【论文笔记】NTU RGB+D
NTU RGB+D
NTU RGB + D优势:
- 丰富的动作类别
- 每个动作类别中拥有充足的样本数量
- 在姿态变化(姿势)、场景设置(环境条件)、人机互动(交互对象)、年龄阶段(演员年龄)等方面进行多样化的调整
- 提供多样化的摄影机视角:正视图、侧视图等
- 在不同与物体之间的距离下进行拍摄
- 使用的是微软Kinect v.2系统,在此版本中不仅能够生成更加精确的深度图像和三维骨骼数据,在对比前代产品时具有以下优势:
a) 支持更多的相机配置组合
b) 提供了更高倍率的相机镜头
c) 在相同条件下能够实现更远的距离测量精度


动作类别:我们共计有60项动作类别,并划分为三个大类:日常活动中的40项(饮食活动及其相关内容),健康维护中的9项(如日常生活中的意外行为),以及协作互动中的11种辅助性行为(如操作性动作、身体协调运动及情感交流行为)。
采用了三台摄像机,并从同一动作中获取了三组水平视图数据。这些视图分别来自不同角度:左侧摄像头在-45度位置(记为-45度),右侧摄像头在0度位置(记为0度),另一台位于+45度位置(记为+45度)。每个目标都被要求完成两次操作:一次使用左侧摄像头进行拍摄(Left camera),另一次使用右侧摄像头进行拍摄(Right camera)。通过这种方式我们获得了两个标准视图以及两个倾斜视图(分别为左倾45度和右倾45度)。各摄像机采用统一编号标识:主镜头始终位于主视角方向(Front view),而其他两个镜头分别位于侧视角方向(Side view)并带有倾斜角度标记。为了获得更多的视角信息,在每种配置下我们都重新调整了各摄像机与被摄物体间的相对高度及间距设置。
基准评估:
- X-Sub:在跨学科评估中,我们将40个科目分为训练和测试组。每组包括20个科目。对于此评估,训练和测试集分别具有40,320和16,560个样本。此评估中的训练对象ID为:1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38;其余科目保留供测试。
- X-View:为了进行交叉视图评估,我们选择相机1的所有样本进行测试,并选择相机2和3的样本进行训练。换句话说,训练集包括动作的正视图和两个侧视图,而测试集包括动作表演的左右45度视图。对于此评估,训练和测试集分别具有37,920和18,960个样本。
传统RNN和LSTM:
RNN:
{\bf h}_t=\sigma\left (\bf W \binom{x_t}{h_{t-1} } \right ),{\bf h}_t=\sigma(\bf V \bf h_t)

\begin{pmatrix}i \\ f \\ o \\ g\end{pmatrix}等于\begin{pmatrix}\texttt{Sigmoid} \\ \texttt{Sigmoid} \\ \texttt{Sigmoid} \\ \texttt{Tanh}\end{pmatrix}乘以\mathbf{W}作用于\binom{\mathbf{x}_t}{h_{t-1}}的结果。
c_t=f\odot c_{t-1}+i\odot g
h_t=o\odot Tanh(c_t)

\begin{pmatrix}i^p\\ f^p\\ g^p\end{pmatrix}等于\begin{pmatrix}\text{Sigmoid}\\\text{Sigmoid}\\\text{Tanh}\end{pmatrix}作用于{\bf W}^p与{\bf x}_t^p和{\bf h}_{t-1}组合的结果
c_t^p=f^p\odot c_{t-1}^p+i^p\odot g^p
o=Sigm \left({\bf W}_o \begin{pmatrix}{\bf x}_t^1\\ \vdots\\ {\bf x}_t^P\\ {\bf h}_{t-1}\end{pmatrix} \right )
h_t=o\odot Tanh\begin{pmatrix}{\bf c}_t^1\\ \vdots\\ {\bf c}_t^P \end{pmatrix}
下述补充转自



