大模型知识蒸馏核心技术（4）—— 关系型知识蒸馏

阅读量：

版权声明

本文原创作者：谷哥的小弟
作者博客地址：

在这里插入图片描述
大模型知识蒸馏的核心技术旨在将教师模型的知识高效迁移至学生模型。其中，样本间关系建模（RKD，Relational Knowledge Distillation）是一种重要的方法，它通过迁移样本间的距离或角度关系，增强学生模型的泛化能力。

RKD 的核心思想

RKD 认为样本之间的关系是一种更高级别的信息，这种关系信息比单个样本的输出信息更有助于学生模型的学习。具体来说，RKD 通过以下两种损失函数来实现样本间关系的迁移：

1. 距离蒸馏损失（Distance-wise Distillation Loss）

距离蒸馏损失用于匹配教师模型和学生模型输出特征之间的距离关系。具体公式如下：
在这里插入图片描述

2. 角度蒸馏损失（Angle-wise Distillation Loss）

角度蒸馏损失用于匹配教师模型和学生模型输出特征之间的角度关系。具体公式如下：
在这里插入图片描述

RKD 的优势

增强泛化能力 ：通过迁移样本间的距离和角度关系，学生模型能够学习到更丰富的结构化信息，从而在未见过的数据上表现更好。
适应不同维度 ：即使教师模型和学生模型的输出维度不同，RKD 仍然可以通过距离和角度关系进行有效的知识迁移。
简单高效 ：RKD 的损失函数设计简单，易于实现，并且在多个任务上都取得了显著的效果。

RKD 的应用场景

RKD 在多个领域都有广泛的应用，包括但不限于：

图像分类 ：通过迁移样本间的距离和角度关系，学生模型能够更好地学习到图像特征的结构化信息，从而提高分类准确率。
度量学习 ：在度量学习任务中，RKD 可以帮助学生模型学习到更有效的特征表示，使得相似样本之间的距离更接近，不相似样本之间的距离更远。
少样本学习 ：在少样本学习任务中，RKD 可以通过迁移教师模型的结构化知识，帮助学生模型在有限的数据上更好地泛化。

RKD 的实现代码

以下是一个简单的 RKD 损失函数的实现代码（使用 PyTorch）：

复制代码

    import torch
    import torch.nn as nn
    import torch.nn.functional as F
    
    class RKDLoss(nn.Module):
    def __init__(self, w_d=25, w_a=50):
        super(RKDLoss, self).__init__()
        self.w_d = w_d
        self.w_a = w_a
    
    def forward(self, f_s, f_t):
        student = f_s.view(f_s.shape[0], -1)
        teacher = f_t.view(f_t.shape[0], -1)
    
        # RKD distance loss
        with torch.no_grad():
            t_d = self.pdist(teacher, squared=False)
            mean_td = t_d[t_d > 0].mean()
            t_d = t_d / mean_td
    
        d = self.pdist(student, squared=False)
        mean_d = d[d > 0].mean()
        d = d / mean_d
    
        loss_d = F.smooth_l1_loss(d, t_d)
    
        # RKD Angle loss
        with torch.no_grad():
            td = (teacher.unsqueeze(0) - teacher.unsqueeze(1))
            norm_td = F.normalize(td, p=2, dim=2)
            t_angle = torch.bmm(norm_td, norm_td.transpose(1, 2)).view(-1)
    
        sd = (student.unsqueeze(0) - student.unsqueeze(1))
        norm_sd = F.normalize(sd, p=2, dim=2)
        s_angle = torch.bmm(norm_sd, norm_sd.transpose(1, 2)).view(-1)
    
        loss_a = F.smooth_l1_loss(s_angle, t_angle)
    
        loss = self.w_d * loss_d + self.w_a * loss_a
    
        return loss
    
    @staticmethod
    def pdist(e, squared=False, eps=1e-12):
        e_square = e.pow(2).sum(dim=1)
        prod = e @ e.t()
        res = (e_square.unsqueeze(1) + e_square.unsqueeze(0) - 2 * prod).clamp(min=eps)
    
        if not squared:
            res = res.sqrt()
    
        res = res.clone()
        res[range(len(e)), range(len(e))] = 0
        return res
    
    
    python
    
    
![](https://ad.itadn.com/c/weblog/blog-img/images/2025-08-16/B3usRnXMcYfNq78tbxdJryFwoV6k.png)

总结

样本间关系建模（RKD）通过迁移样本间的距离和角度关系，为知识蒸馏提供了一种新的视角。它不仅能够增强学生模型的泛化能力，还能够适应不同维度的教师和学生模型。RKD 在多个任务中都取得了显著的效果，是一种非常有前景的知识蒸馏方法。

全部评论 (0)

还没有任何评论哟~

大模型知识蒸馏核心技术（4）—— 关系型知识蒸馏

大模型知识蒸馏技术（6）——自蒸馏

【研究学习】知识蒸馏和模型蒸馏技术

起源，发展 KnowledgeDistillation，KD，2015 Hinton在2015年提出知识蒸馏。（基础，奠定开山之作）使用教师模型的输出logits作为软标签，通过调整温度参数来让学生...

【知识蒸馏】知识蒸馏（Knowledge Distillation）技术详解

参考论文：KnowledgeDistillation:ASurvey 1.前言近年来，深度学习在学术界和工业界取得了巨大的成功，根本原因在于其可拓展性和编码大规模数据的能力。但是，深度学习的主要挑...

大模型知识蒸馏核心技术（1）——知识表示与迁移

知识蒸馏基础及Bert蒸馏模型

为了提高模型准确率，我们习惯用复杂的模型（网络层次深、参数量大），甚至会选用多个模型集成的模型，这就导致我们需要大量的计算资源以及庞大的数据集去支撑这个“大”模型。但是，在部署服务时，就会发现这种“大...

大语言模型的知识蒸馏技术

1\.背景介绍 1.1语言模型的崛起近年来，随着深度学习技术的快速发展，自然语言处理（NLP）领域取得了显著的进展。特别是在语言模型方面，诸如BERT、GPT3等大型预训练模型的出现，极大地推动了N...

人工智能大模型技术基础系列之：模型蒸馏与知识蒸馏

作者：禅与计算机程序设计艺术 1.简介一、什么是模型蒸馏？模型蒸馏（ModelDistillation）是将一个复杂的大型机器学习模型压缩到更小且效率更高的模型上的一种技术。它可以让用户获得更高质...

大模型知识蒸馏技术的最新进展

大模型知识蒸馏技术的最新进展关键词大模型知识蒸馏算法性能优化机器学习摘要本文将深入探讨大模型知识蒸馏技术的最新进展。知识蒸馏是一种将复杂模型的知识传递给简单模型的技术，广泛应用于机器学...

什么是知识蒸馏以及模型知识蒸馏案例解读

大家好，我是AI拉呱，专注于人工智与网络安全方面的研究，现任资深算法研究员，兼职硕士研究生导师；热爱机器学习和深度学习算法应用，深耕大语言模型微调、量化、私域部署。曾获多次获得AI竞赛大奖，拥有多项发...

是否确定退出登录?

大模型知识蒸馏核心技术（4）—— 关系型知识蒸馏

版权声明

RKD 的核心思想

1. 距离蒸馏损失（Distance-wise Distillation Loss）

2. 角度蒸馏损失（Angle-wise Distillation Loss）

RKD 的优势

RKD 的应用场景

RKD 的实现代码

总结

全部评论 (0)

相关文章推荐

大模型知识蒸馏核心技术（4）—— 关系型知识蒸馏

大模型知识蒸馏技术（6）——自蒸馏

【研究学习】知识蒸馏和模型蒸馏技术

【知识蒸馏】知识蒸馏（Knowledge Distillation）技术详解

大模型知识蒸馏核心技术（1）——知识表示与迁移

知识蒸馏基础及Bert蒸馏模型

大语言模型的知识蒸馏技术

人工智能大模型技术基础系列之：模型蒸馏与知识蒸馏

大模型知识蒸馏技术的最新进展

什么是知识蒸馏以及模型知识蒸馏案例解读