Quantizing deep convolutional networks for efficient inference: A whitepaper

阅读量：

本文是对当前量化方法的一个总结。

量化设计

统一仿射量化

它将浮点数量化到(0,Nlevel-1)，这里Nlevel是2的bit次方。

对cnn来说，卷积操作变为：

该方法在推断过程中展现出比其他方法更快的处理速度。其原因在于其激活值总和以及权重保持不变。

统一对称量化

随机量化

random quantization is treated as an additive noise within a round operation. Many hardware fail to support random sampling, resulting in its typical non-employment during inference.

Considering that in expectation, the stochastic quantizer can be seen as effectively passing through the floating-point weights, and is capacitated to handle values beyond the specified range. Although still not entirely clear, its application in gradient computation demonstrates its significant effectiveness.

反向传播

随后作者阐述了quantization-aware训练的方法细节。具体而言，在反向传播过程中采用的是浮点型更新梯度的方式，并将其归类为STE方法。

量化参数的选择

量化粒度

一种方法是为每一层神经网络权重应用统一的scale和zero-point设置；然而，在不同通道中采用独立的设置会带来更好的效果。通常情况下，在处理激活值时为每一层分配独特的量化参数会产生较高的计算开销。

量化推断

作者这里介绍了几种常见的量化方式：

前向训练量化

只量化权重

这种方式不需要验证集，直接进行量化即可。

实验结果表明，在逐通道处理中

同时量化权重和激活值

为了量化评估激活值，在考虑其动态变化范围时，通常需要一定数量的样本数据集以估算激活值的变化区间。

在本研究中对激活值进行逐层量化处理，并通过实验验证这种处理方式的有效性。具体而言，在逐层量化的方法中发现，在逐层量化的方法中，在逐通道对权重参数进行量化的策略下表现最为突出。进一步地，在采用不对称化的量化策略时，在性能指标上仍能取得一定优势

该作者指出，在批归一化层中未引入缩放因子γ导致激活值动态范围受限；同时建议采用ReLU6替代其他激活函数以改善性能。

大尺寸网络由于拥有更多的网络层和参数来抵消量化带来的精度损失而具有更好的鲁棒性然而这些网络的计算效率显著提升因此在选择网络时需要综合考虑两者的平衡

量化的主要损失来自权重，所以应该探索更好的量化权重的方法。

BN层量化

在推断时，对权重和偏置做如下处理：

作者一开始的量化方案是：

然而，在训练与推理过程中，bn层的特性可能导致振荡现象的出现。一种常见的方法是在使用变化的长期均值时进行调整。这不仅会影响bn层的效果表现，并且会导致整个模型在训练阶段出现不稳定的情况。

于是作者引入了如下的解决方案：

作者始终使用校正因子来将权重缩放到长期统计数据：

在训练过程中分为两个阶段，在初始阶段避免对权重进行缩放以使其与传统BN操作保持一致

在经过了大量次的训练后（作者认为大约是几十万次），转而采用基于变化的长期均值计算

作者认为，在训练过程中实现对称量化与不对称量化的差距具有重要意义。进一步研究表明，在采用低位计算资源（例如4位）及逐层量化策略下所构建的网络架构仍能保持与高精度模型相当的性能水平。然而，在更高精度或更复杂的量化策略下（如逐通道量化），实验结果表明相关模型的表现得到了显著提升。

调参对低位网络的效果更好些。

通过量化处理导致模型性能显著下降

此外，在量化网络训练过程中，作者注意到重新训练量化模型的效果略低于微调浮点型模型的效果。

全部评论 (0)

还没有任何评论哟~

Quantizing deep convolutional networks for efficient inference: A whitepaper

本文是对当前量化方法的一个总结。量化设计统一仿射量化它将浮点数量化到0,Nlevel1，这里Nlevel是2的bit次方。对cnn来说，卷积操作变为：这种方法在推断时能够取得更快的速度，因为...

论文笔记：Quantizing deep convolutional networks for efficient inference: A whitepaper

地址：https://arxiv.org/abs/1806.08342 这篇白皮书统一介绍了当前将网络进行定点化的方法。下面将看到的重点记录下来。为了降低深度神经网络的计算量以及带宽（内存占用量），...

量化理解（Google量化白皮书《Quantizing deep convolutional networks for efficient inference: A whitepaper》）

可以说这篇博客是对Google量化白皮书的完整解读，篇幅较长，可以收藏慢慢阅读。笔者在翻译的基础上，又补充了帮助理解的内容，但量化的技术点很多，并不限于此篇，且文中有个别点笔者不能完全吃透，故写得不是...

Pruning Convolutional Neural Networks for Resource Efficient Inference代码详解

PruningFilter代码详解 githubpytorch版实现剪枝之后的VGG准确率从98.7%掉到97.5%. 网络大小从538MB压缩到150MB. 在i7CPU上，对一张图的推断时间从0...

Spiking Deep Convolutional Neural Networks for Energy-Efficient Object Recognition

论文名：SpikingDeepConvolutionalNeuralNetworksforEnergyEfficient ObjectRecognition 中文名：脉冲卷积神经网络做高效的目标识别 ...

Cluster-GCN: An Efficient Algorithm for Training Deep andLarge Graph Convolutional Networks

论文来源：InThe25thACMSIGKDDConferenceonKnowledgeDiscoveryandDataMiningKDD’19,August4–8,2019,Anchorage,AK...

【翻译+笔记】ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

（因为没本事解读数学推导于是只能整了一份加笔记的翻译） ECANet:深度卷积神经网络的有效通道注意 ECANet:EfficientChannelAttentionforDeepConvolutio...

[通道注意力]--ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

实验效果：创新点：将SENet中的两个先降维后升维的卷积，替换为更有效的连接方式，提高准确率的同时也减少了参数量。代码：把代码拿到超分网络RCAN中尝试了一下，直接损失破万，目前还没找到原因，...

[CV Paper] A practical theory for designing very deep convolutional neural networks

论文阅读：设计深度卷积神经网络的实用技巧理论综述网络层数逐渐加深是大势所趋，如何设计高效的更深的网络是目前的问题，盲目的叠加层数并不能取得好的效果。本文提出两种全新视角的限制约束，使得网络结构变...

Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting

研究问题论文希望能实现多尺度交通预测，这是城市交通控制与引导的前提和基础，也是智能交通系统的主要功能之一。背景动机大多数方法如线性回归能够在短时间内进行良好的预测。然而，由于交通流的不确定性和复...

是否确定退出登录?

Quantizing deep convolutional networks for efficient inference: A whitepaper

量化设计

统一仿射量化

统一对称量化

随机量化

反向传播

量化参数的选择

量化粒度

量化推断

前向训练量化

只量化权重

同时量化权重和激活值

BN层量化

全部评论 (0)

相关文章推荐

Quantizing deep convolutional networks for efficient inference: A whitepaper

论文笔记：Quantizing deep convolutional networks for efficient inference: A whitepaper

量化理解（Google量化白皮书《Quantizing deep convolutional networks for efficient inference: A whitepaper》）

Pruning Convolutional Neural Networks for Resource Efficient Inference代码详解

Spiking Deep Convolutional Neural Networks for Energy-Efficient Object Recognition

Cluster-GCN: An Efficient Algorithm for Training Deep andLarge Graph Convolutional Networks

【翻译+笔记】ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

[通道注意力]--ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

[CV Paper] A practical theory for designing very deep convolutional neural networks

Spatio-Temporal Graph Convolutional Networks: A Deep Learning Framework for Traffic Forecasting