Deep Pyramid Convolutional Neural Networks for Text Categorization阅读笔记

阅读量：

文章目录

DPCNN（深度等长卷积神经网络）
- - 模型架构
- - 等长卷积操作
- 池化操作
- 保持filter数量不变
- 带有预激活的跳跃连接
- 文本区域嵌入
- 实验
- - 数据集及预处理
  - 参数设置
  - 结果

DPCNN

相较于现有CNN架构, 本模型进行了更深层次的设计.相较于传统架构, 该网络架构通过逐步加深各层深度, 能够有效提取出文本间的长期依赖关系.在构建过程中, 我们借鉴了ResNet模块的设计理念.

模型结构

等长卷积

首先交代一下卷积的的一个基本概念。一般常用的卷积有以下三类：

假设输入序列为n个元素，在卷积神经网络中选择一个卷积核尺寸设定为m，并设置步长参数值s；为了维持边缘信息，在输入序列两端分别添加p个零进行填充（zero padding）。则经过该卷积层处理后的输出序列为[(n - m + 2 * p) / s] + 1。

narrow convolution: 步长s设置为1值时，在无填充处理的情况下（即p值设为0），经过计算可得其输出序列长度为n−m+1。
wide convolution: 步长s同样设置为1值时，在双侧填充处理后（即p=m−1），经过计算可得其输出序列长度为n+m−1。
equal-width convolution: 步长s同样设置为一个合适的数值时，在双侧填充处理后（即p=(m−1)/2），经过计算可得其输出序列长度恰好与输入序列保持一致（如图所示）。在实际应用中，默认情况下左右两端各填充(p=(m−1)/2)个零。

池化

那么DPCNN是如何捕捉长距离依赖的机制呢？Using stride and setting the number of feature maps to a constant value.

作者采用了恰当两层等长卷积以增强词位embedding表示的多样性。随后开始执行池化操作。每个卷积块（由两层等长卷积构成）处理后, 采用大小为3、步长为2的一系列maxpooling操作来进行池化. 序列长度减少到原来的一半. 其能够感知到的信息片段长度增加了原来的100%.

固定feature maps(filters)的数量

固定feature maps的数量有何必要？许多模型在执行池化操作的过程中，在不断增加特征图数量的同时会导致总的计算复杂度成为深度函数的表现形式。与此相悖的是作者对特征图数量实施了优化，在这一过程中经过实验研究发现，在增加特征图数量的过程中只会显著提升计算开销而无明显精度提升。

固定了feature map的数量，在每个卷积层中设置filter size为3×3且stride为2进行max pooling操作时，在每一步池化操作后都会使得整体计算量减少一半（数据量减少一半），从而形成了一个层次递进式的特征金字塔结构

Shortcut connections with pre-activation

网络太深会有以下问题:

在初始化CNN时，在构建神经网络模型的过程中，在每一层参数通常被初始化为较小数值；这会导致最初建立起来的网络架构中，在每一层接收的数据输入都很接近于零值；这样的情况下会导致整个神经网络无法有效产生有意义的结果

较小的权重值可能抑制梯度的有效传递，并导致网络在初期训练阶段需要较长时间才能启动。

即使网络已成功启动，在深度网络架构中，仿射矩阵（即每两层之间的连接边）的连续相乘特性会导致训练过程中可能出现梯度爆炸或消散的情况。

因此, 该论文借鉴了ResNet的结构设计, 并采用了简化的连接方式。从而有效地降低了梯度消失的现象。

在执行卷积运算的过程中, 作者采用了一种预激活的方法.具体来说, 卷积操作被定义为 $W\sigma(x)+b$ , 而传统的做法则是 $\sigma(Wx+b)$ .从直观上看, 这种线性设计显著降低了深度网络的训练难度.

Text region embedding

作者指出，在TextCNN中运用了多尺寸卷波器组成的卷积层结构后产生的区域特征被称为Region embedding. 其含义在于, 即通过对文本中的一个区域片段（如3-gram）应用一系列卷积操作而获得的结果称为embedding.

此外, 作者为了进一步提升性能, 采用了tv-embedding (two-views embedding)这一技术, 从而进一步提升了DPCNN的准确性. 这主要是由于引入了预训练的词向量模型.

最后, 经过计算得到输入的词向量等于 $Wx+\sum _{u \in U}W^{(u)}z^{(u)}+b$ .
其中, x即Basic region embedding, 而 $z^{(u)}$ 则对应于x中每一个词的词向量.

实验

数据集及预处理

数据集就是几个常用的分类数据集:

AG
Sougou
Dbpedia
Yelp
Yahoo
Amazon

预处理主要是大小写转换. 另外对数据vocabulary size限制为3w.

参数设置

optimizer: 使用SGD优化算法并配备动量项（momentum）值为0.9。
epoch: 在AG数据集上运行50个epoch，在Yelp和Dbpedia数据集上运行30个epoch，在其他数据集上运行15个epoch。
batch size: 设置批量大小为100。
dropout: 设置Dropout率为0.5。
region size: 区域尺寸设置为{1,3,5}。
模型深度: 模型深度设定为15层（其中包含7组卷积块各两层以及一层区域嵌入层）。
此外，在防止过拟合方面采取了早停策略。
未对无监督嵌入进行微调优化。

结果

全部评论 (0)

还没有任何评论哟~

Deep Pyramid Convolutional Neural Networks for Text Categorization阅读笔记

文章目录 DPCNN 模型结构等长卷积池化固定featuremapsfilters的数量 Shortcutconnectionswithpreactivation Textregionembed...

《Deep Pyramid Convolutional Neural Networks for Text Categorization》论文阅读笔记

本篇论文发布于2017年的ACL。DPCNN论文链接文章目录 1\.Abstract 2\.Introduction 3\.DPCNN原理 3.1model结构 4.DPCNN模型的使用 4.1二分...

论文阅读随笔：一维卷积神经网络 Deep Pyramid Convolutional Neural Networks for Text Categorization

论文地址：https://www.aclweb.org/anthology/P171052/ 笔者实验室研究的主要方向是血管图像分割，以及利用生理信号评价脑血流自动调节功能。

Recurrent Convolutional Neural Networks for Text Classification阅读笔记

下面是我对这篇文章内容的整理，因为刚刚接触这一方向，读的这方面的文章还比较少，知识的了解也不够，如果有不对的地方还请大家批评指正，谢谢！ RecurrentConvolutionalNeuralNet...

Graph Convolutional Networks for Text Classification [阅读笔记]

GraphConvolutionalNetworksforTextClassification[阅读笔记] 简介贡献相关研究传统文本分类方法基于深度学习的文本分类方法图神经网络方法图卷积...

Convolutional Neural Networks for Direct Text Deblurring论文阅读

ConvolutionalNeuralNetworksforDirectTextDeblurring 1\.论文的研究目标与实际问题 2\.论文的创新方法及优势 2.1核心思路 2.2关键公式与模型 ...

（AlexNet）ImageNet Classification with Deep Convolutional Neural Networks阅读笔记

基于深度卷积神经网络的ImageNet分类论文地址：http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolution...

TextCNN Convolutional Neural Networks for Sentence Classification阅读笔记

论文原文ConvolutionalNeuralNetworksforSentenceClassification 论文信息EMNLP2014 论文解读ZhenyuZhang&HytnChen 更新时间...

Character-level Convolutional Networks for Text Classification阅读笔记

概述一篇比较经典的文本分类论文,利用charCNN结构提取特征,而没有使用目前非常流行的词向量. 作者通过实验证明,在数据量足够的情况下,深层CNN网络不需要词语信息,仅依赖字符信息就可以获得不错效...

（SPP-net）Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition论文阅读笔记

文章目录（SPPNet）SpatialPyramidPoolinginDeepConvolutionalNetworksforVisualRecognition论文阅读笔记2014 Abstract...

是否确定退出登录?

Deep Pyramid Convolutional Neural Networks for Text Categorization阅读笔记

文章目录

DPCNN

模型结构

等长卷积

池化

固定feature maps(filters)的数量

Shortcut connections with pre-activation

Text region embedding

实验

数据集及预处理

参数设置

结果

全部评论 (0)

相关文章推荐

Deep Pyramid Convolutional Neural Networks for Text Categorization阅读笔记

《Deep Pyramid Convolutional Neural Networks for Text Categorization》论文阅读笔记

论文阅读随笔：一维卷积神经网络 Deep Pyramid Convolutional Neural Networks for Text Categorization

Recurrent Convolutional Neural Networks for Text Classification阅读笔记

Graph Convolutional Networks for Text Classification [阅读笔记]

Convolutional Neural Networks for Direct Text Deblurring论文阅读

（AlexNet）ImageNet Classification with Deep Convolutional Neural Networks阅读笔记

TextCNN Convolutional Neural Networks for Sentence Classification阅读笔记

Character-level Convolutional Networks for Text Classification阅读笔记

（SPP-net）Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition论文阅读笔记