大模型压缩方法之知识蒸馏

阅读量：

知识蒸馏 的训练过程是通过结合硬标签损失 （( L_{\text{hard}} )）和软标签损失 （( L_{\text{soft}} )）进行反向传播，更新学生模型的参数。

具体流程如下：

前向传播 ：

复制代码

 * **教师模型** 和 **学生模型** 分别对相同的输入数据进行前向传播，计算它们各自的输出。
 * 教师模型的输出会生成“软标签”，即通过温度系数平滑过的类别概率分布。学生模型则输出它自己的类别概率分布。

计算损失 ：

复制代码

 * **硬标签损失** （( L_{\text{hard}} )）：这是学生模型的输出与真实标签之间的交叉熵损失，通常用于确保学生模型在最终的任务上取得好的性能。
 * **软标签损失** （( L_{\text{soft}} )）：这是学生模型的输出概率分布与教师模型输出的“软标签”之间的差异，通常使用**KL散度** （Kullback-Leibler Divergence）来度量。通过软标签损失，学生模型能从教师模型的特征中学到更多细节信息。

损失函数通常是两者的加权和，公式如下：
[
L = \alpha \cdot L_{\text{hard}} + (1 - \alpha) \cdot L_{\text{soft}}
]

复制代码

 * ( \alpha ) 是一个超参数，用来控制硬标签损失和软标签损失的相对权重。
 * 温度系数 ( T ) 通常用于软化教师模型输出的概率分布，使其更加平滑，能提供更多类别之间的相关性信息。

反向传播 ：

复制代码

 * 计算出的**总损失** ( L ) 会通过**反向传播** （Backpropagation）过程，更新学生模型的参数。
 * 在反向传播过程中，损失函数的梯度会通过链式法则从输出层传回到模型的每一层，逐步调整模型参数，最终提升学生模型的表现。

迭代训练 ：

复制代码

 * 重复执行上述的前向传播、损失计算和反向传播，直到学生模型在训练集上达到期望的性能或者达到预设的训练轮数。

关键要点：

硬标签损失 ( L_{\text{hard}} ) 强调学生模型能够正确地学习真实标签，确保学生模型在任务上的准确性。
软标签损失 ( L_{\text{soft}} ) 则让学生模型学习教师模型的类别概率分布，使其能够捕捉更丰富的特征和类别之间的相关性。
反向传播 是通过计算出的总损失来更新学生模型的参数，最终优化学生模型的性能。

总结

知识蒸馏的反向传播过程是基于总损失函数 ，即硬标签损失 和软标签损失 的加权和。这个损失函数通过反向传播来优化学生模型的参数，使学生模型不仅能学习真实标签，还能从教师模型中吸收更多深层次的知识。

全部评论 (0)

还没有任何评论哟~

大模型压缩方法之知识蒸馏

知识蒸馏的训练过程是通过结合硬标签损失（L\texthard）和软标签损失（L\textsoft）进行反向传播，更新学生模型的参数。具体流程如下： 1. 前向传播：教师模型和学生模型分别对相同的输...

模型压缩之蒸馏

核心：TeacherStudent机制使用：1.Teacher与Student的softmaxloss求KL散度损失 2\.另一点很少有文章提到，利用蒸馏机制可以让Sutdent学习无监督的新样本，...

AI大语言模型的知识蒸馏与压缩

1\.背景介绍 1.1人工智能的发展随着人工智能技术的不断发展，深度学习模型在各个领域取得了显著的成果。尤其是在自然语言处理（NLP）领域，大型预训练语言模型（如GPT3、BERT等）的出现，使得N...

大模型知识蒸馏：提示词优化模型压缩

文章标题：大模型知识蒸馏：提示词优化模型压缩关键词：大模型、知识蒸馏、提示词、模型压缩、人工智能摘要：本文将深入探讨大模型知识蒸馏技术，特别是如何通过提示词优化模型压缩，提高人工智能模型的效率和可...

模型压缩-之知识蒸馏与迁移学习

模型压缩大体上可以分为5种：模型剪枝：即移除对结果作用较小的组件，如减少head的数量和去除作用较少的层，共享参数等，ALBERT属于这种；量化：比如将float32降到float8；知识蒸馏：...

深度学习模型压缩方法：知识蒸馏方法总结

本文将介绍深度学习模型压缩方法中的知识蒸馏，内容从知识蒸馏简介、知识的种类、蒸馏机制、师生网络结构、蒸馏算法以及蒸馏方法等六部部分展开。一、知识蒸馏简介知识蒸馏是指用教师模型来指导学生模型训练，通...

attention机制和模型压缩，知识蒸馏

作用在特征图晚上的例子（上面为res正常，下面为加权计算特征）通道数据加权模型压缩缺点：位数下架如328位，则精度会下降35%

＜论文＞通过知识蒸馏的方式来压缩大模型

一、摘要本文介绍论文《DistilBERT,adistilledversionofBERT:smaller,faster,cheaperandlighter》，这篇NeurIPS2019年的论文通过...

知识蒸馏:压缩大模型提升部署效率

知识蒸馏:压缩大模型提升部署效率作者：禅与计算机程序设计艺术 1\.背景介绍随着深度学习技术的不断发展,越来越复杂和强大的神经网络模型不断涌现,如GPT3、DALLE等大规模预训练模型。这些模型往...

知识蒸馏在模型压缩中的运用

知识蒸馏在模型压缩中的运用作者：禅与计算机程序设计艺术 1\.背景介绍随着深度学习在各个领域的广泛应用,模型规模也越来越大,参数量越来越庞大。大模型不仅需要大量的计算资源和存储空间,在部署和推理时...

是否确定退出登录?

大模型压缩方法之知识蒸馏

具体流程如下：

关键要点：

总结

全部评论 (0)

相关文章推荐

大模型压缩方法之知识蒸馏

模型压缩之蒸馏

AI大语言模型的知识蒸馏与压缩

大模型知识蒸馏：提示词优化模型压缩

模型压缩-之知识蒸馏与迁移学习

深度学习模型压缩方法：知识蒸馏方法总结

attention机制和模型压缩，知识蒸馏

＜论文＞通过知识蒸馏的方式来压缩大模型

知识蒸馏:压缩大模型提升部署效率

知识蒸馏在模型压缩中的运用