Knowledge Distillation by On-the-Fly Native Ensemble论文解读
1. 网络结构:

Gate被定义为全连接网络,在分析哪种类型的网络更加重要时发挥着关键作用。现有的利用全连接网络选择网络组件重要性的方法非常普遍。例如,“三人共识顶个专家?”感觉类似于bagging方法。
**2.**损失函数:

训练时softmax都有温度T=3蒸馏,测试时就恢复T=1。

最终的Loss

第一部分代表各子网络之间的损失函数设计结果, 第二部分则用于计算教师网络的整体损失, 第三部分则衡量了各子网络与教师网络之间的KL散度.
**3.**测试情况
我的测试结果:
测试数据集:cifar100
测试条件:网络的最后一个block开始如图1的分支结构(分三个branch:m=2)
ResNet32_ori top1 bestacc: 70.69
ResNet32_ONE top1 bestacc: 73.47
ResNet32_ONE_E top1 bestacc: 75.45
ResNet110_ori top1 bestacc: 75.38
ResNet110_ONE top1 bestacc: 78.79
ResNet110_ONE_E top1 bestacc: 79.77
note: _ori标识为原始网络;
在测试过程中删除分支结构时使用的是_ONE;
在测试过程中保留分支结构时使用的是_ONE_E。
作者的测试结果:

在CIFAR-100数据集上的准确率提升了相当显著。Ensemble策略(E)相比One方案在小型网络中的提升更为明显,在大型网络中的提升则相对有限。对比实验表明,在ResNet-110原始架构的基础上引入One策略可进一步优化模型性能。

作者在imagenet****数据集上的测试结果:
基于imagenet数据集的实验中,在最后两个block处实施分支结构。观察到性能有所提升,但相较于cifar-100数据集上的优化效果更为显著。此外,通过所收集的数据样本分析可知,在新型网络架构下该方法仍展现出良好的适用性
不同数据集之间的测试效果差异性显著,未来在对各类别分类网络进行性能评估方面仍需进一步研究
