Advertisement

mtcnn(Multi-task Cascaded Convolutional Networks)理解(一)----理论理解

阅读量:

参考网址:<>

https://kpzhang93.github.io/MTCNN_face_detection_alignment/

Face Landmark Detection and Registration based on Multi-Task Deep Convolutional Neural Networks

joint: 联合

face alignment: 人脸对齐

网络结构如下

问题:p-net, r-net, o-net都是什么?

答:P-Net全称为Proposal Network,生成候选框,输入尺寸为12x12x3

R-Net: 一种基于精炼网络的方法,在P-Net输出的基础上进行更为精细的操作以获得更好的结果;该网络接收尺寸为24×24×3的空间特征作为输入

O-Net: output network: 用来生成box和特征点landmark,输入尺寸为48x48x3

具体的网络结果为:

图像金字塔+

当给定一张照片时, 通过缩放操作生成多尺度图像金字塔, 以保持尺度一致性. 其中基础结构采用全连接神经网络设计. 在生成图像金字塔后, 利用_FCN模型进行初始特征提取并确定边界框位置, 同时结合边界框回归算法优化窗口位置, 并运用非极大值抑制(NMS)方法去除冗余窗口.

问题:什么尺度不变?

hard sample mining

他觉得那些loss数值较高的前70%数据对于网络的收敛具有重要影响。而剩下的30%数据由于其较低的loss值,在训练过程中被认为已经达到足够的成熟度。因此,在反向传播过程中这些数据无需参与计算过程。

全部评论 (0)

还没有任何评论哟~