paper阅读:Sparse Structure Selection
Data-Drive Sparse Structure Selection for Deep Neural Networks
This paper introduces a novel data-driven approach for sparse structure learning. The method leverages extensive experiments to validate its effectiveness. Specifically, the approach demonstrates superior performance across multiple benchmarks. The experimental results highlight the robustness of the proposed framework in handling complex scenarios. Moreover, the method achieves state-of-the-art performance in terms of computational efficiency and accuracy. This contribution is particularly valuable for advancing the field of computer vision and related domains.
background
模型压缩balabala…
related work and the limit
传统的结构修剪策略包括多种方案如OBD OBS Deep compression network surgery 神经元类敏感度剪切 CP ThinNet Slimming以及Rethinking等这些策略通常要求执行一系列复杂的修剪步骤以达到优化目标。为此 本文提出了一种整合性设计的新框架 在这一框架下无需额外增加任何额外组件即可实现完整的模型压缩流程
现有几种稀疏训练方法值得注意的是其中一些方法如文献[25]实现了非结构性权重稀疏这不利于GPU等硬件设备加快其部署过程相比之下采用group Lasso方法进行结构性稀疏训练的研究者们则相对多一些例如文献[50][1][43]等均采用了该方法类似的工作还包括Slimming与Rethinking他们分别采用了subgradient descent与ISTA这两种不同的优化技术以解决L1范数相关的稀疏性问题
还提到了一些目前用于结构搜索的文章[2, 51, 32, 46,43,38]等。。。结构搜索和剪枝不分家。。。
novel points
该研究系统性地构建了一个统一的CNN训练与修剪框架,并特别地,在CNN的特定结构(如神经元数量或通道数目、残差模块以及架构模块)中引入比例系数及相应的稀疏正则化措施。这些技术手段使得问题得以被建模为一个联合应用稀疏正则化的优化问题。
我们采用了改进型随机加速近距离梯度(APG)算法结合稀疏化技术协同优化CNN模型参数及缩放因子。与过去常用的基于启发式的人工干预严格施加稀疏性约束的方法相比,本研究提出的方法无需额外微调或分阶段优化即可实现更优的收敛性和更好的性能。
在整体框架上而言,我们开发了一种新型的端到端模型训练裁剪系统。为了实现资源优化的目标,在网络架构中我们引入了一个可调节的缩放因子γ,在其核心模块(包括神经元节点、组块层以及残差块单元)之间建立动态关联关系。随后,在网络权重优化阶段我们采用了改进型交替投影梯度(APG)算法以求解相应的最优化问题。此外,在权重剪裁过程中我们对那些具有较小影响的关键路径上的权重系数进行了精确约束。
methodology
不同层面引入可训练比例因子如下图所示:

由于权重参数稀疏化与网络协同训练具有较高难度,在本文中我们将比例因子设置为某个整体块输出后的特定位置(如单个通道、操作模块或残差块后端的位置),以促进组内参数的有效剪枝。我们采用Alternating Proximal Gradient (APG)方法求解这一问题,并对该算法进行了优化设计以减少梯度计算中的重复前向传播过程。

在mx的实现如下(良心。。。):

evaluation(benchmark, experiments design)
由于论文发布较早,在精度高低这一具体指标上并未给予特别关注。在实验设计方面,本研究涵盖了Cifar和ImageNet等数据集的验证工作,并探索了多种压缩网络架构体系。通过与现有的SOTA剪枝方法进行比较时,并特别关注了与近期研究中提出的Rethinking方法的异同。
Thoughts:
1、 is this problem very meaningful? is the idea interesting and inspired?
全面覆盖对于大部分稀疏训练的工程来说是可以达到目标的,并非难以实现。然而,在其他方面则表现出色得多。涵盖不同层级的设计方案进行结构稀疏化能够显著提升APG性能
2、 does the paper clearly explained the considerations and implement?
很清晰
3、 what’s the tradeoff?
相比于传统的优化方法,在APG算法中进行优化计算所需的资源消耗相对较少。在实际应用中采用比例因子的方式相较于直接使用BN参数而言,在实现难度上要高得多。然而这种改进方式所带来的好处在于其适用场景更加广泛。
4、 other consideration.
