mtcnn(Multi-task Cascaded Convolutional Networks)理解(一)----理论理解
发布时间
阅读量:
阅读量
参考网址:<>
https://kpzhang93.github.io/MTCNN_face_detection_alignment/
Face Landmark Detection and Registration based on Multi-Task Deep Convolutional Neural Networks
joint: 联合
face alignment: 人脸对齐
网络结构如下

问题:p-net, r-net, o-net都是什么?
答:P-Net全称为Proposal Network,生成候选框,输入尺寸为12x12x3
R-Net: 一种基于精炼网络的方法,在P-Net输出的基础上进行更为精细的操作以获得更好的结果;该网络接收尺寸为24×24×3的空间特征作为输入
O-Net: output network: 用来生成box和特征点landmark,输入尺寸为48x48x3
具体的网络结果为:

图像金字塔+
当给定一张照片时, 通过缩放操作生成多尺度图像金字塔, 以保持尺度一致性. 其中基础结构采用全连接神经网络设计. 在生成图像金字塔后, 利用_FCN模型进行初始特征提取并确定边界框位置, 同时结合边界框回归算法优化窗口位置, 并运用非极大值抑制(NMS)方法去除冗余窗口.
问题:什么尺度不变?
hard sample mining
他觉得那些loss数值较高的前70%数据对于网络的收敛具有重要影响。而剩下的30%数据由于其较低的loss值,在训练过程中被认为已经达到足够的成熟度。因此,在反向传播过程中这些数据无需参与计算过程。
全部评论 (0)
还没有任何评论哟~
