Advertisement

深度学习论文: GhostNetV2: Enhance Cheap Operation with Long-Range Attention及其PyTorch实现

阅读量:

GhostNetV2是一种通过引入长距离注意力机制来提升效率的轻量化卷积神经网络架构

1 概述

在本文中, 作者开发了一种专为硬件设计的注意力机制(命名为DFC注意力), 并提出了适合移动应用的新一代GhostNetV2架构. DFC注意力基于全连接层构建, 不仅能在常规硬件上快速运行, 还能识别长距离像素间的依赖关系. 作者进一步分析了GhostNet中表达能力的瓶颈问题, 并通过引入DFC注意力来增强廉价操作所产生的扩展特征, 从而实现了GhostNetV2块既聚合局部又捕获长距离信息的目的.

在这里插入图片描述

2 GhostNetV2

2-1 GhostNet

相关研究指出,在轻量级神经网络研究领域中基于Cheung等提出的 ghost net模型及其实现是一种有效的探索方向

  1. GhostNet: 提取丰富特征的能力来自廉价操作(CVPR 2020 口头报告)支持 CPU 和 ARM 端的 GhostNet
  2. GhostNets 基于廉价操作实现异构设备上的高效运行(IJCV 2022)支持 GPU 和 NPU 端

2-2 DFC Attention

构建一种基于端侧架构的关注机制应当具备以下特性。

  • 长距离: 传统的自注意力机制应被采用, 其具备强大的长距离信息捕获能力, 这一特性有助于提升模型的表现. 在当前流行的轻量化卷积神经网络架构中(如MobileNet和GhostNet), 通常会采用小型卷积层来降低计算开销, 这种策略往往会导致相关技术能力的缺失.
  • 高效率部署: 本设计中的注意力模块应被优化为高效的模块, 这将确保不会显著影响整体推理速度. 计算负担较重的操作以及不利于硬件优化的操作均应被避免.
  • 简单: 为了确保模型能够适应各种不同的应用场景, 所有注意力模块的设计应尽量保持简单, 避免引入复杂的额外设计.

尽管传统的 Self-attention 能够有效地模拟长距离依赖关系, 然而它在实现高效部署方面却不占优势, 这主要源于其计算复杂度与图像分辨率呈二次方关系这一事实。本文的研究者因此致力于探索一种更加简洁且易于实现的设计方案——基于固定权重全连接层(FC)的方法——以期构建一个拥有全局感受野且能有效捕捉注意力范围的整体架构。

设计的DFC Attention如下:

在这里插入图片描述

相较于自注意力机制而言,全连接层(带有固定加权)不仅能够更加容易地实现,并且还能够生成具有全局感受野的注意力图。

2-3 GhosetNet V2

通过增强Ghost模块的表现力,在轻量化网络GhostNet架构中嵌入DFC attention机制能够显著提升其表征能力。进而形成一种改进型视觉主干网络架构 GhostNetV2。鉴于目前该模块在刻画空间依赖关系方面的能力仍有待加强,本文采取了将DFC attention与现有的Ghost模块进行并行设计的策略。

在这里插入图片描述

为了降低DFC attention模块所需的计算量,Feature downsampling. 本文提出了一种针对DFC支路上的特征实施下采样处理的方法,在生成较小尺寸的特征图后,进一步应用一系列变换以优化计算效率。

GhostV2模型的核心瓶颈。对于逆向bottleneck结构而言,在提升其表达能力(位于bottleneck中间层的特征)方面,GhostV2模型表现出显著的优势;相比之下,在提升输出层容量方面效果较弱。因此,在基于GhostNetV2的网络架构中,默认情况下仅对中间层的特征进行了强化处理。

在这里插入图片描述

3 Experiments

ImageNet:

在这里插入图片描述

COCO:

在这里插入图片描述

ADE20K:

在这里插入图片描述

斯坦福CS324课程聚焦于大语言模型(LLM)的研究与应用

CS324 - 大型语言模型(LLM)是斯坦福大学今年冬季学期推出的新课程。该课程深入探讨了这一领域的基础原理及其开发过程,并涉及相关话题。修读本课程后,学生不仅能够掌握相关技术细节,并且能够从批判性思维的角度分析大型语言模型及其应用。

Introduction

▢ AI定义:让机器具有与人类相似的智能功能

▢ 语言具有创造力、组合性和交流性等特点

▢ NLP发展历程:规则方法、统计方法、神经方法

▢ 神经网络崛起:计算能力提升,大规模标注数据

▢ 词向量捕获语义信息,seq2seq模型实现端到端学习

▢ 基础模型:可微、可优化的大规模预训练模型,适用于下游任务

▢ GPT-3示范基础模型的潜力:通过提示完成各种下游任务

Capabilities

▢ 语言模型任务:预测文本的联合概率或下一个词

▢ GPT-3在Penn Treebank语言建模任务上优于SOTA

▢ GPT-3在LAMBADA长距离依赖语言建模任务上也优于SOTA

▢ GPT-3在HellaSwag常识推理任务上接近SOTA

▢ 在问答任务上,GPT-3零样本表现不佳,少样本效果更好

▢ GPT-3零样本机器翻译质量不高,少样本可达到SOTA

▢ GPT-3可用于简单算术问题,但不“理解”数学

▢ GPT-3可生成几乎无法区分的新闻文章

▢ GPT-3可适应新词使用和纠正语法错误等新任务

Harms I

▢ 定义AI:智能因子、代理的集合

▢ AI安全关键问题:价值观对齐、 interruptibility、透明度

▢ 价值观对齐:使AI行为符合人类价值观

▢ 可中断性:人类可随时停止/修改AI系统

▢ 透明度:人类可理解AI决策过程

▢ 狭义AI:专注特定任务,更易控制

▢ 强AI目标:具有人类水平跨领域智能

▢ 具体做法:强化学习、规范、监督

Harms II

▢ 性能差异:不同人群的准确率存在差异

▢ 社会偏见:生成文本带有刻板成见

▢ 引起伤害:生成攻击性内容

▢ 造假信息:生成误导性内容

▢ 内容审核:平衡言论自由和安全

▢ 缓解危害:数据处理、模型设计、部署监管

Data

▢ 数据获取:Common Crawl、社交媒体

▢ 数据处理:去重、分词、清洗

▢ 数据标注:Mechanical Turk、竞赛

▢ 弱监督:无标注数据的监督信号

▢ 自监督:从数据中自动构建监督信号

▢ 数据质量:覆盖范围、样本大小、注释质量

▢ 数据偏差:历史数据中的社会偏见

▢ 隐私:个人敏感信息泄露

▢ 版权:未经授权使用受版权保护数据

Security

▢ 模型逆向:从模型输出推断训练数据

▢ 成员推断:判断样本是否在训练数据中

▢ 数据提取:从模型内提取训练数据

▢ 毒化攻击:注入对模型产生不利影响的数据

▢ 欺骗攻击:对测试样本做微小变化来欺骗模型

▢ 后门攻击:使模型对特定触发输入产生错误输出

▢ 对抗防御:鲁棒性训练、差分隐私等方法

Legality

▢ 版权法:规定数据使用权利义务

▢ 合理使用:允许未经授权有限使用版权作品

▢ 隐私法:规定个人信息使用权利义务

▢ 其他法律:规范AI系统应用和部署

▢ 伦理规范:行业和组织自律守则

Modeling

▢ 分词:将文本切分为词单元

▢ 编码器:生成文本表示,适用于分类

▢ 解码器:顺序生成文本,适用于生成

▢ 编解码器:编码输入并解码输出

▢ 注意力:软查询表,实现全局依赖

▢ Transformer:编码器解码器统一架构

▢ 位置编码:表示词在序列中的位置

Training

▢ 语言模型损失:最大化联合概率或交叉熵

▢ 预训练目标:遮蔽语言模型、下一句预测等

▢ 优化算法:SGD、Adam、mixed precision

▢ 学习率:warmup和降低学习率

▢ 正则化:dropout、weight decay

▢ 初始化:控制参数尺度,增加模型可训练性

Parallelism

▢ 数据并行:数据划分到不同计算节点

▢ 模型并行:模型划分到不同计算节点

▢ 流水线并行:不同模块串行计算

▢ 参数服务器:跨节点共享参数

▢ 分布式训练:协同高效地完成预训练

Scaling laws

▢ 模型规模:随着参数量增加,性能提升

▢ 数据规模:随着训练数据增多,性能提升

▢ 计算规模:随着FLOPs增加,性能提升

▢ 递减收益:扩展规模带来的收益递减

▢ 外推预测:预估未来性能提升趋势

▢ 建模规模法则:数学公式描述规模与性能关系

Selective architectures

▢ 混合专家:根据输入激活部分专家

▢ 稀疏混合专家:每个样本只使用少量专家

▢ Switch Transformer:每个样本只使用一个专家

全部评论 (0)

还没有任何评论哟~