Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读

阅读量：

摘要

引言

摘要

将知识迁移看成一种分布匹配问题

通过用一种新的损失函数最小化teacher与student网络间的Maximum Mean Discrepancy (MMD) metric来解决这个分布问题

引言

出发点

神经元具有知识选择性特性，比如神经元只对特定的区域或者样本感兴趣，所以作者提出了对齐teacher和student网络间的神经元选择样式分布

最终的损失函数为交叉熵损失和MMD的和

本文的贡献

提出了一种新的知识迁移的观点（对其选择样式分布），并提出了新的名叫 Neuron Selectivity Transfer (NST)的蒸馏的方法

在很多数据集上测试，并证明了提出的方法有效

表明提出的方法与其他的知识蒸馏的方法结合

表明知识迁移的方法可以帮助学习更好的特征，并且在其他的视觉任务中（比如目标检测）也可以获益

准备知识

一些符号

表示第k个通道上的特征
表示在第i个位置上的C维特征

MMD（Maximum Mean Discrepancy）

x，y为随机变量，x采样数量为N，y采样数量为M，MMD的想法就是求两个随机变量在高维空间中均值的距离

对于卷积网络中的HWC特征，将C层的特征看作是随机向量的C次采样，所以MMD的做法就是先将每个通道做映射，得到H'*W'*C的特征，然后将映射完后的通道H'*W'*C做平均，得到随机向量在高维空间中的平均（H'*W'），最后用teacher与student的这个结果求欧式距离

可以利用kernel技巧，省去映射的过程，直接求得损失函数的结果，k就是核函数

神经元选择性迁移

出发点

这样做的原因

图2展示的是神经元的激活图（应该是从该神经元向输入求导得到的）

从图中可以看出，神经元具有区域选择性，这些区域是有任务相似性的，比如左边图片对应猴子的脸，右边的图片对应字母，为了捕捉这些区域相似性，在学生网络中，神经元也应该学到这些激活样式

直接用feature map来做匹配有什么问题

将feature map的每个通道的特征看作为神经元选择性的采样空间

文章中直接用teacher和student的这些采样去匹配，会忽略掉在这个空间中的采样密度，丢掉了样式

这两句话过于晦涩难懂，个人理解如下：

如过直接用feature map间的欧式距离作为损失函数，体现不出来Figure2中的样式（猴脸，字母），所以用一种新的方式，先将每个通道上的H*W的特征映射成H'*W'的特征，现在的特征就是H'*W'*C，然后将新的特征在C方向上合并，形成H'*W'的新的特征（比如注意力蒸馏中的做法）就可以体现出这个样式，也注重了空间上的采样密度，再用欧式距离算损失即可

公式

损失函数

在（4）中，是在（3）中的fk.的基础上添加了l2-normalized，这是为了确保每个采样有相同的尺度

核函数的选择

讨论

线性核函数

线性核下的损失函数：

在注意力图映射函数是绝对值就和规范化的条件下，AT的损失函数：

除了规范化的方式不一样外，式5与式8是等价的，因此AT是本工作的一个特殊情况

多项式核函数

G是一个Gram matrix，gij代表了位置i与位置j上向量的相似性；

其中的F是按照4.2节描述的方法规范化的；

因为内积能够表示向量的相似度，而G是在不同空间点上所有通道上做内积，也就是计算不同位置点之间的相似度，所以说Gram matrix中含有区域相似性

实验

在分类数据集上

总的来说，所有的对比实验表明，NST-poly可能不是最好的（ImageNet），但是他是KD的补充，它和KD结合起来可以吊打一切

在检测数据集上

总的来说，NST-poly相比于其他是最好的，可能是因为检测任务需要更多的空间信息，而KD没有，所以KD打不过它；

还有一点没有变的是，KD-NST依然是最强的组合，又证明了NST是KD的好伙伴

讨论

不同KT的分析

NST

Figure 5中，一个点代表一个神经元的分布，可视化是用一种叫做t-SNE做出来的

NST可以使teacher和student神经元的分布接近一致

各人感觉，除了KD（因为KD没有训练中间层），其他的方法（AT,HT）都可以做到这一点

KD在类别更多的分类任务上效果更好，因为类别更多，soften target得到的信息就更多；

然而KD太过依赖softmax，所以它不能在回归和rank（是个什么任务）上起作用

Fitnets将所有的feature都用作了监督信息，可能会引入噪声，而且没有注重采样密度

MMD以外的方法

GAN的思想是一个可以研究的方向，student的特征相当于一个G，teacher的特征相当于D

结论

将知识迁移看错一个分布对齐的问题（分布对齐其实就是说的好听了，其实跟分布没啥关系）

利用了神经元的选择性（这个是AT的思想，还不如AT来的干脆，真的多余）

NST和KD的协作能力才是这篇论文值得吹嘘的地方

可以迁移到更高级的视觉任务中（AT,HT都可以做到，但是NST最好，也不知道为啥）

全部评论 (0)

还没有任何评论哟~

Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读

目录摘要引言相关工作深度网络压缩与加速知识蒸馏领域自适应准备知识一些符号 MMD（MaximumMeanDiscrepancy）神经元选择性迁移出发点公式讨论实验在分类数据...

Like What You Like: Knowledge Distill via Neuron Selectivity Transfer 论文翻译

摘要尽管深度神经网络已经在各种各样的应用中表现出非凡的效果，但是其优越的性能是以高存储和计算成本为代价的。因此，神经网络的加速和压缩近来引起了人们极大的关注。知识迁移（KT），旨在通过从较大的教师模...

《Net2Net: Accelerating Learning Via Knowledge Transfer》论文阅读

TianqiChen,IanGoodfellow,JonathonShlens,ICLR2016引用量278 [https://arxiv.org/abs/1511.05641] 1简介知识迁移路径...

【论文阅读】Graph Few-shot learning via Knowledge Transfer

目录 1、简介导读动机贡献 2、方法框架算法描述 3、实验数据集实验结果整体表现消融实验参数敏感性分析节点可视化 4、小结 5、参考 1、简介论文题目GraphFewshotl...

Neurlps2024论文解读|Beyond Accuracy Tracking more like Human via Visual Search-water-merged

论文标题 Beyondaccuracy:TrackingmorelikeHumanviaVisualSearch超越准确性：通过视觉搜索更像人类地跟踪论文链接 Beyondaccuracy:Trac...

GenAINet: Enabling Wireless Collective Intelligence via Knowledge Transfer and Reasoning 论文

摘要:生成式人工智能GenAI和通信网络有望在6G中产生突破性的协同效应。通过无线网络连接GenAI代理可以潜在地释放集体智能的力量，并为人工通用智能AGI铺平道路。然而，当前的无线网络被设计为“数据...

I Know What You Do Not Know: Knowledge Graph Embedding via Co-distillation Learning

研究问题论文通过实验证明了文本信息和图结构信息是互补的，并使用共蒸馏学习来同时获取这两类信息背景动机单纯的基于图结构的方法面临着不完备性和稀疏性问题，难以预测长尾实体作者比较了基于文本和基于结...

【零样本知识蒸馏】（八）CVPR 2020：Dreaming to Distill: Data-free Knowledge Transfer via DeepInversion

【零样本知识蒸馏】（八）CVPR2020：DreamingtoDistill:DatafreeKnowledgeTransferviaDeepInversion 论文地址：代码地址：主要思路：基...

《Universal Style Transfer via Feature Transforms》论文解读

论文名字为：《UniversalStyleTransferviaFeatureTransforms》前言 1.传统的风格迁移模型存在需要大量耗时、调参的问题，原因在于： [1]通过计算原图和风格图的...

A Gift from Knowledge Distillation: Fast Optimization,Network Minimization and Transfer Learning论文初读

目录摘要引言相关工作知识迁移快速优化迁移学习方法提出观点数学表达式 FSPMatrix的损失学习步骤实验快速优化性能的提升迁移学习结论摘要提出了将蒸馏的知识看作成一种...

是否确定退出登录?

Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读

摘要

引言

相关工作

深度网络压缩与加速

知识蒸馏

领域自适应

准备知识

一些符号

MMD（Maximum Mean Discrepancy）

神经元选择性迁移

出发点

公式

讨论

实验

在分类数据集上

在检测数据集上

讨论

不同KT的分析

MMD以外的方法

结论

全部评论 (0)

相关文章推荐

Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读

Like What You Like: Knowledge Distill via Neuron Selectivity Transfer 论文翻译

《Net2Net: Accelerating Learning Via Knowledge Transfer》 论文阅读

【论文阅读】Graph Few-shot learning via Knowledge Transfer

Neurlps2024论文解读|Beyond Accuracy Tracking more like Human via Visual Search-water-merged

GenAINet: Enabling Wireless Collective Intelligence via Knowledge Transfer and Reasoning 论文

I Know What You Do Not Know: Knowledge Graph Embedding via Co-distillation Learning

【零样本知识蒸馏】（八）CVPR 2020：Dreaming to Distill: Data-free Knowledge Transfer via DeepInversion

《Universal Style Transfer via Feature Transforms》论文解读

A Gift from Knowledge Distillation: Fast Optimization,Network Minimization and Transfer Learning论文初读

《Net2Net: Accelerating Learning Via Knowledge Transfer》论文阅读