Advertisement

Zero-shot Adversarial Quantization论文翻译+解读

阅读量:

2021:Zero-shot Adversarial Quantization

  • Abstract

  • 1. Introduction

      • ==上述问题总结一下:==
  • 2. Related Work

    • Model quantization
    • Data-free model compression
    • ==以上小结==
    • ==本论文主要贡献如下图所示、:==
          • 论文标题:Flexpoint: An Adaptive Numerical Format for Efficient Training of Deep Neural Networks---弯曲点:一种有效训练深度神经网络的自适应数值格式
  • 3. The Computational Framework--计算框架

      • The Computational Framework(框架概述:):
      • 3.1. Preliminary
  • 3.2. 双层建模误差---Two-level Discrepancy Modeling

  • 3.3. 抗衡知识迁移---Adversarial Knowledge Transfer

  • 3.4. 激活正则化---Through activation regularization means, improve model training stability

4.1. Experimental Setup
4.1.1 Datasets

  • Caltech Krizhevsky’s CIFAR Dataset
  • ImageNet Dataset
  • Cityscapes Dataset
  • CamVid Dataset
  • PASCAL VOC 2012 Dataset
  • 4.1.2 基线对比
    • FT(微调量化):我们采用原始训练数据集对已有的量化模型进行参数优化(FT)。

    • RQ(原始量化):基于量化模型的性能评估指标设计中,默认策略即为直接针对量化后模型架构展开性能测试,并无需额外的参数优化步骤。

    • DFQ [30]:提出了一种后端优化方法,在不改变原生模型结构的前提下实现权重和激活异常值的有效去噪处理。

    • ACIQ [2]:该算法通过计算并分析剪切范围,并结合神经网络中各通道位宽分配策略,在不需额外参数优化的情况下即可达到预期性能目标。

    • ZeroQ [4]:该方法与传统正则化策略不同,在深度学习模型压缩过程中采用了替代性机制以避免因零点引入而产生的精度损失问题。

    • GDFQ [42]:这种方法在保持分类任务特性的同时提供了一种新颖的数据增强思路,在一定程度上弥补了传统基于真实样本的数据驱动学习机制的不足。

      • 4.1.3 Implementation Details

实验结果展示

复制代码
* 4.3. Case Study of Generated Images---生成图像的案例研究
  • 5. Conclusion and Future Work

Abstract

在这里插入图片描述

模型量化是一种很有前途的压缩深度神经网络和加速推理的方法,使其能够部署在移动设备和边缘设备上。// 为了保持全精度模型的高性能,大多数现有的量化方法都集中于通过假设训练数据集是可访问的,对量化模型进行微调。然而,由于数据隐私和安全问题,这一假设在实际情况下有时不被满足,因此使这些量化方法不适用。 // 为了在不访问训练数据的情况下实现零样本模型量化,少量的量化方法采用 训练后量化或批量归一化统计引导的数据生成进行微调。但是,由于前者 具有过低的经验性,缺乏对超低精度量化的训练支持,而后者 不能完全恢复原始数据的特性,对于不同的数据生成的效率往往较低。为了解决上述问题 ,我们提出了一个零样本对抗性量化(ZAQ)框架,促进有效的差异估计和知识迁移从一个全精度模型到其量化模型。// 这一段翻译有问题!!!------------这是通过一种新的两级差异模型来实现的,以驱动生成器综合信息丰富和多样的数据例子,以对抗性学习的方式优化量化模型。我们在三个基本的视觉任务上进行了广泛的实验,证明了ZAQ比强零射击基线的优越性,并验证了其主要组件的有效性。

1. Introduction

尽管深度神经网络(DNNs),尤其是深度卷积网络(DCNs)在广泛的计算机视觉任务中展现出卓越的效果[20,40,24,34]。然而随着模型复杂性的急剧增加——即模型参数数量的急剧攀升——这使得在云和边缘设备上部署这些模型变得不可行。因此,在实现模型压缩与加速方面的主要技术路径即为通过量化方法将高精度参数转换为低精度参数[41,16,38]。针对因量化过程而导致性能退化的问题已有大量研究工作致力于优化全训练数据集上的量化模型。然而,在实际情况中由于隐私与安全方面的考量 在某些情况下原始训练数据无法直接获取 例如电子医疗记录往往涉及患者的隐私信息 从而限制了上述解决方案的实际应用效果

该量化方法在文献[2,30,47]中被提出,并通过校正策略实现对神经网络权重和激活的量化过程。然而,在量化方法与目标任务目标之间存在微小差距(这些目标之间的差异非常轻微),这种微小差距会导致量化模型性能的下降。为了解决这一问题,在文献[4,42]中提出了新的解决方案:一种基于批归一化统计(BNS)引导的数据生成方法(BNS)。这种方法旨在生成与全精度深度模型批处理归一化层中编码的真实数据统计相匹配的数据样本(如图1所示)。在全精度监督下(如图1(a)所示),通过对目标任务进行优化并利用合成数据对量化模型进行微调(即采用直接优化的方法来改善量化模型),从而进一步提升其性能表现(即使在一定程度上有所提升)。尽管如此,在超低精度场景下效果仍需进一步优化(因为采用微调技术会导致BN层统计特性难以完全恢复原始训练数据特征)。此外由于存在大量冗余数据生成过程本身也需要较长的时间来进行计算(这一过程耗时较长)。因此尽管取得了一定效果 但目前的结果仍未能达到令人满意的效果水平。

上述问题总结一下:

![    基本问题是:模型量化后性能下降---量化感知的微调方法

无法访问训练数据----训练后量化方法

难以获取训练数据集----模型量化处理流程

本文试图通过解决上述问题 来促进无数据模型量化的发展。因此,我们提出了一种新的学习框架,称为零射击对抗量化(ZAQ),以执行模型量化不利用任何样本从训练数据。具体来说,我们为zq设计了一个两级差异建模策略,以度量量化模型与其对应的全精度模型之间的差距。与现有的无数据模型量化方法一样,我们不仅考虑了模型顶层的输出差异,还融合了一种新的基于特征映射的中间通道间差异。ZAQ中的一个生成器负责以一种对抗性学习方式[15] (基于极大极小博弈的优化)生成信息丰富和多样化的数据示例,以实现有效的差异估计和知识转移,如图1(b)所示。此外,为了使发生器获得对网络更敏感的算例,采用了激活正则化的方法。总而言之,我们的贡献如下:
A、我们提出了一个零射击对抗性量化框架,以支持有效的数据生成和知识转移。据我们所知,它代表了将对抗学习应用于无数据模型量化的第一次努力。
B、设计了一种新的两级差异建模策略,用于度量量化模型与其全精度模型之间的差异,从而指导量化模型和发生器的训练
C、我们在图像分类、分割和目标检测任务方面进行了广泛的实验,表明我们的ZAQ框架在无数据情况下取得了最先进的结果,在超低精度场景下也能很好地工作,并且与bns-引导的数据生成方法相比,在模型量化方面更高效。

Model quantization

模型量化作为一种极具前景的技术,在减少存储参数的同时实现了高效的计算,并将其计算转移到整数运算单元进行处理而非耗能耗力的浮点运算单元[16]。在这一过程中面临的一个关键问题在于 ,这种量化方式可能导致系统性能显著下降尤其是在低精度设置下表现尤为明显。为此研究者PACT[7]提出了一种创新方法即通过激活剪切参数来确定适当的量化尺度范围。此外研究者Zhu及其团队开发出一个统一且灵活支持INT8格式的视觉任务训练框架这一框架显著提升了相关算法的有效性并展现出与全精度模型相当甚至更好的性能水平[49]。在神经网络训练领域除了上述方法外一些创新方案也应运而生例如Flexpoint [18]MPT[28]和DFP[9]等方法均采用了16位浮点来进行神经网络训练并且这些方案都能达到与全精度模型相当甚至更高的精度水平[27-29][47][26][1][2][47][29][2][47][29][2]等引用文献所展示的效果令人瞩目。值得注意的是这些方法往往需要对大量训练数据进行处理然而在实际应用中这些数据往往难以满足需求或者不具备足够的可获得性特别是在资源受限或数据获取难度较高的场景下这一限制因素可能会对整体系统的性能表现产生不利影响因此探索更加高效的数据利用方式仍然具有重要的理论价值和技术意义。

Data-free model compression

近年来成为机器学习领域研究的热点问题之一的是无数据压缩技术。它作为一种无需依赖原始训练数据集进行模型压缩的技术方案而备受关注。Srinivas与Babu[39]在该领域的研究中处于领先地位,在他们的工作中首次提出了基于通道剪枝且无需原始训练数据的方法。随后的研究逐步拓展至多种零样本或无标签压缩方法的发展阶段,并包含但不限于以下几种代表性技术:量化[2,4,42]、权重分解[30]以及基于知识蒸馏的知识蒸馏(KD)[25,5,13,43,23]等方法学框架。其中DFQ[30]以及ACIQ[2]等技术均属于训练后量化方法范畴,并基于权重均衡或偏差校正原则实现效果提升的同时避免过拟合的问题出现。然而,在实际应用中发现当采用低于6位精度(bits)模型时上述量化方法无法有效防止量化模型性能下降的现象已较为普遍。其中大部分基于知识蒸馏的方法试图利用预先训练教师模型所蕴含的基础数据分布特性来进行特征重构从而还原出潜在的数据样本信息这一思路逐渐占据主导地位如BNS[44]、Dirichlet分布[31]及类别信息辅助重构等方法均在此框架下展开研究然而现有工作仍存在显著不足即这些方法往往未能充分考虑中间特征层对于学生网络学习过程的影响这一关键因素导致其在实际应用效果上仍有待进一步提升

最近的研究[4,42]表明,在构建量化和微调模型的过程中无需依赖原始数据集。这些方法的核心理念在于从全精度模型重建部分样本以训练微调后的量化模型。ZeroQ方法基于全精度模型的BNS(Bitwise Neural Search)机制,在随机噪声的基础上直接优化重建样本。而GDFQ方法则在BNS基础之上引入生成器,并结合额外的类别标签信息辅助样本重建过程。这一策略主要适用于分类任务领域。通过耗时重建的过程,利用BNS方法生成的数据与原始训练数据仍存在显著差异。此外由于缺乏全精度模型中间层的信息内容支持,ZeroQ和GDFQ在支持高级视觉任务方面表现欠佳。

以上小结

relate work上图中提及的论文链接
1、PACT[7]使用激活剪切参数来找到合适的量化尺度:PACT[7]使用激活剪切参数来找到合适的量化尺度的学习链接
2、Zhu等[49]构建了一个灵活统一的视觉任务INT8训练框架:Feng Zhu, Ruihao Gong, Fengwei Yu, Xianglong Liu, Yanfei Wang, Zhelong Li, Xiuqi Yang, and Junjie Yan. Towards unified int8 training for convolutional neural network. In CVPR, pages 1969–1979, 2020.----Towards unified int8 training for convolutional neural network的论文解读
3、【18】Flexpoint: An Adaptive Numerical Format for Efficient Training of Deep Neural Networks:An Adaptive Numerical Format for Efficient Training of Deep Neural Networks:但低比特宽度神经网络的训练仍然是一个具有挑战性的问题。在这里,我们提出了Flexpoint数据格式,旨在完全替代32位浮点格式训练和推断,旨在不经修改地支持现代深度网络拓扑。Flexpoint张量有一个可动态调整的共享指数,以最小化溢出并最大化可用的动态范围。:但低比特宽度神经网络的训练仍然是一个具有挑战性的问题。在这里,我们提出了Flexpoint数据格式,旨在完全替代32位浮点格式训练和推断,旨在不经修改地支持现代深度网络拓扑。Flexpoint张量有一个可动态调整的共享指数,以最小化溢出并最大化可用的动态范围。
4、MPT【28】Mixed Precision Training:混合精度训练
5、Mixed precision training of convolutional neural networks using integer operations. DFP【9】:

在这里插入图片描述
在这里插入图片描述

本论文主要贡献如下图所示、:

在这里插入图片描述

3、Flexpoint [18]:

论文标题:Flexpoint: An Adaptively Optimized Numeric Format for Efficient Deep Neural Network Training—弯曲点:一种基于自适应优化的高效训练深度神经网络的数值格式

对深度学习优化中的数值格式进行系统性研究与应用实践,在提升性能的同时兼顾能源效率方面取得了显著成果

3. The Computational Framework–计算框架

在这里插入图片描述

The Computational Framework(框架概述:):

图2展示了ZAQ的总体架构。其中包含了经过预训练的高精度模型P以及量化模型Q,并引入了一个关键组件——生成器G(Generator)。该组件的主要职责是合成具有丰富信息量且多样的数据样本,并将这些样本用于计算二阶差异函数来衡量模型P与量化模型Q之间的差距(Difference)。该方法中的差异函数由两部分组成:输出层差异Do(Output Difference)和中间通道间的差异化度量Df(Intermediate Channels Difference)。在这一过程中,默认情况下量化模型Q与生成器G之间会寻求一种均衡——基于对抗学习策略,在此过程中会分别对多级特征空间中的差异化进行建模并优化参数配置目标(Objective Function)。为了进一步提升生成效果,在设计阶段我们引入了激活正则化技术La(Activation Regularization),这种技术有助于促进生成器G输出更加丰富的特征信息,并能有效提升数据多样性(Data Diversity)的表现能力

随后, 我们对本文所采用的量化函数的基本特征进行了详细阐述, 并深入探讨了所提出的框架.

在这里插入图片描述

3.1. Preliminary

在训练具有低精度权值和激活的神经网络过程中,在深度学习模型优化中通常会采用均匀量化策略以减少计算资源消耗。针对k位量化方案[48]的一般情况而言,我们可以系统性地定义均匀量化函数q(·)的形式为:

在这里插入图片描述

其中v代表一个全精度(即float32)数值,S被定义为缩放因子,Z则是在浮点数表示中所使用的零点.当参数Z不等于零时,均匀量化方法通常分为两类:对称量化和非对称量化.本研究中采用的是对称量子化方法,并将零点位置设在了原点.因此,在这种情况下缩放因子S的计算式可以表示为:

在这里插入图片描述

其中xf是浮点32位数字中的任意一个。

在模型量化过程中,在实现高效性能的同时需要关注另一个关键指标——量化误差。这一误差反映了全精度模型P与低精度模型Q之间的性能差距D。我们可以用数学表达式D = \|P - Q\|来准确描述这一差距。

在这里插入图片描述

3.2. Two-level Discrepancy Modeling—两级误差建模

基于此前介绍,在ZAQ框架中采用了新的两级差异函数以模拟全精度与量化模型间的差异关系

在这里插入图片描述

其中N为输出中的元素号,如分类用的类号,分割用的标签地图大小。

基于利用中间特征映射提高知识蒸馏性能的思想[44,32]的启发下

具体而言

在这里插入图片描述

在本研究中,我们引入了一个变量L(Layer),该变量由ZAQ算法进行计算并被后续模块所引用。具体而言,在模型构建过程中,我们从输入数据P和Q分别提取了第L层的特征表示值 CRM_P 和 CRM_Q(Cross-Ratio Module)。其中ω(l)表示分配给第l个层级(Level)的自适应权重系数;C(l)则代表第l个层级(Level)所使用的输出通道数量(Channel Count)。值得注意的是,在残差神经网络的设计中,通常建议选择各模块的最后一层作为特征提取层,并根据实验结果调整模型深度参数以获得最佳性能表现。

传统的测量中间层差异的方法依赖于P与Q的相关性分析[35,45]。这些研究通常采用类似KD所采用的方式进行相关性计算(如文献[35,45]所述)。然而由于P与Q在数值上存在显著跨度差异(这种差异主要源于精度设置的影响),其间的特征映射差距相对较大(如表4所示)。因此我们引入CRM以解决这一问题。Gram矩阵能够反映各特征向量之间的某种关联性,并用于捕捉图像的特性信息,在风格迁移[14]中得到广泛应用。然而直接利用不同精度下的特征向量比较两网络间的特征差异缺乏可靠性。为此我们将其扩展为通道关系图并提取特定层上的关键信息用于构建模型从而获取同一层中各通道间的关系这一过程如图3所示

在这里插入图片描述

则定义通道特征f (l) i与f (l) j之间的conine similarity为:

在这里插入图片描述
在这里插入图片描述

3.3. Adversarial Knowledge Transfer—对抗知识迁移

该系统基于包含误差估计和知识迁移环节的对抗性极大极小博弈训练了量化模型Q和生成器G,在异步评估过程中, 生成器G试图通过最大化目标函数来优化其参数, 最终使得系统的整体性能达到最佳状态

在这里插入图片描述

3.4. Activation Regularization----激活正则化

尽管L1损失函数能够有效避免模型在误差估计中陷入某些异常样本点的影响,在实际应用中这些异常样本点仍然存在并限制了生成器对原始输入域的探索能力。然而这些异常样本点却使得两个网络的预测分布趋于一致却超出了全精度模型的工作范围。我们假设模型P和Q之间的无限差异空间为Ω其中生成器G通过迁移学习的方式探索并积累了具有价值的样本数据。具体而言Ω由两个子空间ΩP和ΩU共同构成即Ω=ΩP∪ΩU其中ΩP表示原始训练数据域对应的子空间或是预训练模型P的工作范围而ΩU则代表了位于预训练模型工作域之外的所有无限维度的空间部分。在这个过程中生成器的主要目标就是合成属于ΩP这一子空间中的样本数据而不专注于处理位于ΩU中的其他区域内容。

一系列关于DNNs可解释性[46,11]以及样本重构[25,5]的相关工作揭示了神经网络的工作特性,在此过程中神经网络各激活层均反映了神经网络对输入数据的敏感特性。具体而言,在该过程中各层激活程度越高,则直接反映生成样本与工作域之间的关联程度越大。基于此观察结果我们进一步利用一种基于激活正则化的约束生成器来进行有意义样本的探索与合成过程。其中hPi表示网络P在最后一个卷积层第i个通道上的激活映射,并且i取值范围为1到M(M代表总共有多少个这样的映射)。这一约束关系即被称为激活正规化机制。

在这里插入图片描述

考虑到较高的激活值反映了输入示例与训练数据之间的良好匹配性这一直觉的基础上, 我们将La元素整合到方程8中, 并通过优化损失函数来指导生成器的训练过程。

在这里插入图片描述

最后,在算法1中总结了所提框架zq的详细过程。

在这里插入图片描述

4. Experiments

4.1. Experimental Setup

4.1.1 Datasets

在本研究中,在六个数据集上评估了我们的方法:其中用于分类任务的包括CIFAR10、CIFAR100以及ImageNet;此外,在分割任务中使用了cityscape和CamVid;而目标检测方面则采用了VOC2012。

CIFAR。

CIFAR-19[19]和CIFAR-100各自包含了不同数量的图像分类数据集:前者由32×32彩色图像构成的10个类别的数据集包含5万幅图像的样本序列;后者则由同一尺寸下的100个类别组成,并划分为同样规模的训练样本与测试样本集合。

ImageNet

基于ILSVRC 2012[36]构建的1000类数据集包含了大约一百二十万张经过标注的训练图像样本和五万张用于验证的数据图片。

Cityscapes

Cityscapes[8]是一种广泛应用于城市景观研究的数据集,在分类任务中包含了丰富的标注数据集。其中仅19个类别被用于评估目的。该数据集提供了详细的标注信息:其中包含了2975幅用于训练的数据和500幅用于测试的数据。

CamVid。

CamVid[3]是一个汽车相关领域的数据库,在该领域中我们收集并整理了约367张训练样本和约233张测试样本。研究团队在经过精心选择的11个标准化的分类类别上进行了系统性的性能评估任务。

VOC2012

该数据集[12]共收录了全部11540张图像,这些图像均配以一组来自该类别中的物体作为标注。

该数据集[12]共收录了全部11540张图像,这些图像均配以一组来自该类别中的物体作为标注。

4.1.2 Baselines

为了比较我们提出的方法与其他两种方法的优劣, 我们对无数据微调方法以及经过训练后的量化方法进行了对比分析. 基线简要描述如下.

FT(微调量化):我们使用原始训练数据微调(FT)一个已经量化模型。

仅对量化后的模型进行评估的原始量化(RQ)方法不需要任何微调工作。

DFQ[30]:一种训练后量化方法使用权重均衡方案来去除权重和激活中的异常值。

ACIQ[2]:该算法通过分析计算剪切范围,并同时考虑神经网络中各通道的比特分配方案,在无需进行微调或重新训练过程的情况下完成任务。

ZeroQ[4]:它用重构数据代替原始数据对量化模型进行再训练。
GDFQ[42]:该算法也是基于条件生成器恢复虚假数据样本的一种针对性的微调策略。然而该算法仅限于支持分类任务的应用场景。

4.1.3 Implementation Details

在Pytorch框架下开发了一套完整的网络架构及量化方法体系。针对各种数据集类型,在公平比较的原则下统一采用了与文献[37]相同的预训练数据增强策略。实验过程中发现,在预训练与微调环节中采用动量因子为0.9、权重衰减系数为5×1e-4的随机梯度下降(SGD)算法能够取得较好的效果表现。值得注意的是,在对不同阶段的数据集进行处理时存在特定策略:即对所有非ImageNet的数据集均实施200个epoch的系统级预训练,并在每隔80个epoch后降低学习速率一次(此处仅针对COCO等较大规模的数据集)。而对于样本尺寸较小的小型数据集如CIFAR-10,则采用了信道数量缩减至输入通道四分之一并相应减少生成器噪声维度的设计方案。此外,在量化模型的学习过程中初始设置了较低的学习速率值(即分别为量化模型和生成器分别设置初值为学习速率为0.1和1e-3)。值得注意的是,在不同任务场景下学习率衰减策略会有所调整以适应具体需求的变化规律。具体而言,在实际运行过程中我们将CIFAR-10等小样本数据集配置为了批量大小256的训练模式;而对于ImageNet以及VOC2012等大型标注数据则采用了批量大小64的设计方案;而对于分割任务则将批量大小设定为了更小规模的16来进行优化适配。综合考虑实验条件以及多维度性能指标评估需求,在本次实验研究中主要采用了两个超参数设置方案:即α=0.1和β=

4.2. Experimental Results

4.2.1 Performance Test for Image Classification—图像分类性能测试

在图像分类任务中,我们采用**top-1精度(Acc)**作为评价指标,并对不同的数据集进行了不同的调优策略。其中,CIFAR数据集的最优调整周期为200步,而ImageNet则需要300步进行优化。在每个阶段中,CIFAR的数据集采用40步的训练策略,而在ImageNet上则采用50步的学习策略以保证模型性能的有效提升。此外,每隔80个epoch周期进行一次学习率衰减是必要的操作流程。其中,"W-A-"符号用于表示权重(W)和激活(A)的量化位数,而全精度模型则使用"float32"作为基准进行对比研究。如表1所示,实验结果表明:DFQ和ACIQ方法在超低精度下的性能表现明显下降,尤其是在CIFAR100和ImageNet数据集上的表现更为突出.这种现象的根本原因在于缺乏有效的微调过程来适应低精度环境的影响.经过深入研究后发现,我们的框架设计能够实现三个主要分类数据集上的最佳性能水平,这表明该方法相较于现有的量化压缩算法具有显著的优势

4.2.2 Performance Test for Image Segmentation----图像分割性能测试

在本节中,我们对ZAQ、ZeroQ以及DFQ在cityscape和CamVid数据集上的性能进行了全面对比分析,并将所有模型均采用了统一的图像尺寸设置为256像素进行实验研究。基于生成的数据集构建这一技术路线下,在实际应用中存在明显的局限性:例如无法直接应用于涉及分割与目标检测等复杂视觉任务的应用场景中。为此我们选择了MobileNetV2与ResNet50网络架构进行ImageNet预训练,并将其整合至DeepLabv3模型框架中作为特征提取模块[6]。实验过程中我们设置了超参数α值为0.5、β值取0.1,并采用所有类别样本平均计算交并比值(mean Intersection over Union, mIoU)这一量化评价指标来衡量模型性能表现。此外,在微调优化阶段我们将生成图像的比例缩放比例设定为128×128像素级别以期实现更好的模型差异度展示及知识传递效果

表2展示了通过采用多种微调策略对量化模型进行优化后的性能表现 ,从中可以看出我们的方法仍展现出卓越的效果,在超低精度情况下表现尤为突出。这一发现与我们在图像分类任务中获得的结果具有相似性。

此外,在两个不同的数据集cityscape和CamVid中各选择两个实例进行实验研究后发现:我们采用了基于不同模型量化方法对4位Deeplabv3(MobileNetv2)算法实现的具体分割效果进行了可视化展示(见图4)。其中前两行为cityscape场景下的测试结果而后两行为CamVid数据集上的表现对比。经对比可以看出:DFQ算法在处理四舍五入量化过程时存在明显缺陷导致其难以维持较高的模型性能水平;而通过与ZeroQ算法进行比较分析我们发现ZAQ算法在处理复杂细节特征以及小尺寸目标分割任务方面均展现出更强的优势效果(具体表现可见于图中的第二部分区域)。

在这里插入图片描述

在这里插入图片描述

4.2.3 Performance Test for Object Detection

为展示目标检测技术的应用场景, 本研究将ZAO算法应用于MobileNetV2 SSD[21]模型, 并在此基础上对其性能进行了评估. 表3对比分析了我们提出的方法与现有量化技术的性能优势. 尤其值得注意的是, 在使用原始训练数据集进行特征提取的基础上进行比较, ZAO算法展现出显著的优势.

最后部分我们借助图5完成了对基于映像的三个任务性能测试结果的总结。该图表详细展示了不同精度水平下各评估指标的表现情况。通过对比各量化策略对应的曲线图形可以看到,在极端低精度条件下,zq展现出显著的优势。

在这里插入图片描述

4.2.4 Ablation Study

在本部分中,我们设计并实施了消融实验来验证核心组件在ZAQ中的功能作用。实验结果表明,在ImageNet(基于ResNet18)和Cityscapes(基于DeeplabV3(ResNet50))等数据集上评估的关键指标均显示出显著提升趋势。其中输出差异Do直接关联于模型的整体性能表现;此外中间通道间差异Df以及激活正则化La的变化也对整体网络效果产生了重要影响。其中输出差异Do直接关联于模型的整体性能表现;此外中间通道间差异Df以及激活正则化La的变化也对整体网络效果产生了重要影响。

在这里插入图片描述

如前所述,在分析过程中我们注意到这些中间通道之间的差异可能带来约1至2%的性能提升。相比之下,激活正则化的作用相对有限(约为0.5%)。然而,在一定程度上这种机制有助于防止生成器陷入那些对全精度模型不敏感的一些异常样本中这一发现已在KD[5]一文中有所体现

在这里插入图片描述

通过对比CRM与学习中间知识的两种方法论路径,在模型量化有效性方面取得了显著成果:(1)基于Gram矩阵的方法实现了差异建模;(2)利用归一化特征映射对齐的技术推动了知识转移过程。表4列出了两种方法的关键性能指标,并通过大量实验验证CRM的表现优势。这不仅进一步强化了在量化感知模型微调过程中精细考量数值跨度的重要性(如图7所示),还深入探讨了基于ZAQ计算的核心机制及其对系统性能的影响

4.2.5 Efficiency Analysis—效率分析

该研究旨在评估在单个GPU (GTX 2080Ti)环境下ZAQ算法与基于数据驱动生成的量化方法(包括ZeroQ与GDFQ)的效率表现。每种方法所生成图像的数量受其在引用文献[4]及后续研究[42]中的收敛程度影响。由于生成图像的质量较低且种类有限,在训练过程中ZeroQ与GDFQ需要处理更多样化的样本以提高模型性能。

此外,在 cityscape 数据集上由于其高分辨率特性零点q在合成过程中耗费了大量时间。由此可见我们采用了相同规模的样本来对不同时代下的城市景观进行了比较实验。表5展示了该方法与gdfq相比在cifar-100数据集上的性能优势能够减少41.8% GPU运行时间而在 cityscapes 数据集中则较零点q减少了57.5% 的 GPU 时间这一发现具有显著意义因为零点q需要从 50 到 1500 次迭代才能生成一张完整的图像而 gdfq算法容易导致大量重复图像生成。

在这里插入图片描述

4.3. Case Study of Generated Images—生成图像的案例研究

本研究采用多种量化模型对生成数据进行案例分析,并以CIFAR和CamVid数据集为例进行实验验证。从图8中可见,在CIFAR10数据集中展示了原始图像,在CIFAR100数据集中展示了原始图像。对于每个数据集而言,在第一列展示的是原始图像,在第二列至第五列分别展示的是不同量化版本的图像:第二列至第四列分别对应于MobileNetV2(采用8位量化)、MobileNetV2(采用16位量化)以及ResNet20(采用4位量化)。对比分析了GDFQ与ZeroQ生成的图像特征,并观察其与原始图像之间的差异性特征

尽管ZAQ生成的数据样本难以被人类识别,并且与原始数据缺乏相似性;然而他们的目的是通过不同精度层次来反映两个模型之间的差异程度。对比ZQA生成的合成图像与其他两种模型(GDFQ和ZeroQ)生成的结果发现:研究显示ZQA生成的数据展现出更高的多样性特征;相比之下GDFQ和ZeroQ生成的数据则呈现出明显的重复性特征;这一观察结果表明在企业内部知识转移机制的有效性得到了一定程度的支持

在图9中,我们展示了ZAQ和ZeroQ生成的语义图像样本。这些观察结果与我们在图像分类数据集上获得的结果一致。研究表明,在生成具有更多多样性的语义图像方面,ZAQ表现出显著的优势。

5. Conclusion and Future Work

在本文中,我们提出了一种新的ZeroQ对抗性量化框架ZAQ,它不需要访问任何原始训练数据。它的主要创新在于通过交替的两级差异估计和知识转移,将对抗学习应用于无数据模型量化。我们的框架因其建模预测差异的能力,以及全精度和量化模型之间的中间通道间差异而受到欢迎。
对三种常见视觉任务 的各种深度神经模型进行了大量实验,证明了ZAQ的优越性,特别是在精度极低的情况下。在未来的工作中,我们考虑将所提出的方法应用于其他领域,如BERT量化[38],并将ZAQ扩展到自动混合精度量化
####== 5中想看的论文==
[38]Sheng Shen, Zhen Dong, Jiayu Ye, Linjian Ma, Zhewei Yao Amir Gholami, Michael W Mahoney, and Kurt Keutzer. Qbert: Hessian based ultra low precision quantization of bert. In AAAI, pages 8815–8821, 2020.Hessian based ultra low precision quantization of bert论文解读

全部评论 (0)

还没有任何评论哟~