Multi-Layered Gradient Boosting Decision Trees(mGBDT) 笔记
去年周志华教授提出"深度森林"之后
本文主要回答了两个问题:
在构建多层模型时,请问能否采用非可微组件,并通过树集成方法实现分层分布式表征?这有助于提升模型的表现。
可以说本文提出了一种Multi-layered GBDT方法(然而实际上分布式表征能力值得进一步探讨个人认为实验效果略显不足)
在不借助反向传播的情况下,如何在这种多层次、不可微组件构成的体系中进行训练?
Step1: 采用每一层的输出 F 进行训练或初始化的过程。这些输出 F 是在引入伪标签 z 的情况下通过模仿梯度提升树方法进行学习的(具体实现细节可参考伪代码)。
Step2: 训练伪逆矩阵映射关系G。实际上这相当于类似于自编码器的一种结构(后半部分构成F映射)。值得注意的是,在这一过程中巧妙地采用了加入白噪声的方法以提高模型的稳定性
注:经过充分训练后,默认情况下G与其逆函数与F一致,这就是"伪标签"z的反向传播更新机制。有了这一机制,则原问题得以转化为梯度提升树(GBDT)的问题。

图1. mGBDT的训练过程

图2. Auto-encoder示意图(图片来源于网络)
尽管本文是一项极具参考价值的研究工作; ; 我仍希望文章能够在以下方面进一步完善:
Theorem 1's assumption that "preserving isometry among nearby points" is overly stringent, making it challenging to fulfill in practical scenarios. This suggests that training might not necessarily lead towards a reduction in the loss value.
2、实验结果中性能提升不十分显著;然而大家更加关注的是在MNIST或ImageNet等数据集上如何让中间神经元开启后呈现点线特征以及能够在识别"一只猫"这样的简单图像时展示出中间层的能力。
