Advertisement

Knowledge Distillation by On-the-Fly Native Ensemble论文解读

阅读量:

1. 网络结构:

Gate被定义为全连接网络,在分析哪种类型的网络更加重要时发挥着关键作用。现有的利用全连接网络选择网络组件重要性的方法非常普遍。例如,“三人共识顶个专家?”感觉类似于bagging方法。

**2.**损失函数:

训练时softmax都有温度T=3蒸馏,测试时就恢复T=1。

最终的Loss

第一部分代表各子网络之间的损失函数设计结果, 第二部分则用于计算教师网络的整体损失, 第三部分则衡量了各子网络与教师网络之间的KL散度.

**3.**测试情况

我的测试结果:

测试数据集:cifar100

测试条件:网络的最后一个block开始如图1的分支结构(分三个branch:m=2)

ResNet32_ori top1 bestacc: 70.69

ResNet32_ONE top1 bestacc: 73.47

ResNet32_ONE_E top1 bestacc: 75.45

ResNet110_ori top1 bestacc: 75.38

ResNet110_ONE top1 bestacc: 78.79

ResNet110_ONE_E top1 bestacc: 79.77

note: _ori标识为原始网络;
在测试过程中删除分支结构时使用的是_ONE;
在测试过程中保留分支结构时使用的是_ONE_E。

作者的测试结果:

在CIFAR-100数据集上的准确率提升了相当显著。Ensemble策略(E)相比One方案在小型网络中的提升更为明显,在大型网络中的提升则相对有限。对比实验表明,在ResNet-110原始架构的基础上引入One策略可进一步优化模型性能。

作者在imagenet****数据集上的测试结果:

基于imagenet数据集的实验中,在最后两个block处实施分支结构。观察到性能有所提升,但相较于cifar-100数据集上的优化效果更为显著。此外,通过所收集的数据样本分析可知,在新型网络架构下该方法仍展现出良好的适用性

不同数据集之间的测试效果差异性显著,未来在对各类别分类网络进行性能评估方面仍需进一步研究

全部评论 (0)

还没有任何评论哟~