Convolutional Neural Networks for Sentence Classification阅读笔记及复现

阅读量：

文章目录

TEXT-CNN
- 1. 网络架构
  - 嵌入层
    - 卷积层
    - 最大值池化层
    - Softmax分类层
- 2. 参数与超参数
- 3. 变种
- 4. 实验
- 代码复现(pytorch)

卷积神经网络相比于DNN和RNN有以下优点：

能够提取局部的位置信息
能够便捷地将不定长的输入转换为定长输入并接入到深度神经网络（DNN）中进行处理
相较于RNN模型计算复杂度较低，在许多任务领域均展现出良好的性能表现

TEXT-CNN

这篇论文具有一定年代感但仍不失其价值

1. 网络结构

Embedding Layer

word embedding层, 没什么好说的

Convolution Layer

输入层经过卷积操作能够生成多个Feature Map。其中h代表纵向词语的数量,k则是单词向量的空间维度。利用大尺寸的卷积窗口,能够生成多个列向量。

Max-Pooling Layer

随后的部分中提到一种名为Max-over-time Pooling的技术被采用。具体而言,该方法通过直接从上一层的一维特征图中提取出最大值来完成信息聚合,而这些最大值往往代表了最为关键的信息点。可以看出这一方法能够有效地解决可变长度序列输入的问题（因为无论输入到池化层前一层有多少个特征单元,我们始终只需从中提取出最大的那几个数值）。经过这一过程后得到的结果是各特征图中的最大值集合,从而最终形成一个统一维度的一维向量作为当前层激活码的基本构成单元

SoftMax分类Layer

池化层的一维向量输出结果经过全连接处理，并与一个Softmax层相联系；根据具体任务需求设置这个Softmax层（通常它反映了各类别上的概率分布）。在实际应用中，在倒数第二层的全连接结构中引入Dropout技术能够有效降低模型过拟合的风险（避免隐藏层单元过度拟合或对称配置），从而有效降低模型过拟合的风险。

2. 参数与超参数

sequence_length*
CNN的输入输出具有固定的长度，在对句子进行固定长度的处理时，超出部分会被截断，并且不足的部分会用零填充.

多种尺寸的滤镜：通常设置为[2、3、4]或[3、4、5]
特征图：100
批量大小：50
Dropout：Adaptive dropout (可调整)
优化器：AdamW

3. 变种

模型结构有几个小的变种:

CNN-rand
设置为 embedding_size 这个 Hyperparameter 后, 对不同单词的向量进行随机赋值, 在反向传播过程中进行优化.
- static
  pre-trained词向量固定，训练过程不再调整
- non-static
  pretrained vectors + fine-tuning
- multiple channel
  static与non-static搭两个通道

4. 实验

数据集
MR: Movie reviews with one sentence per review. Classification involves detecting positive/negative reviews.
SST-1: Stanford Sentiment Treebank—an extension of MR but with train/dev/test splits provided and fine-grained labels (very positive, positive, neutral, negative, very negative)
SST-2: Same as SST-1 but with neutral reviews removed and binary labels.
Subj: Subjectivity dataset where the task is to classify a sentence as being subjective or objective.
TREC: TREC question dataset—task involves classifying a question into 6 question types (whether the question is about person, location, numeric information, etc.)
CR: Customer reviews of various products (cameras, MP3s etc.). Task is to predict positive/negative reviews

实验结果

结论

相较于CNN-rand而言,CNN-static的表现更为出色,这表明预训练词向量确实带来了显著提升作用。
相比而言,CNN-non-static不仅在性能上优于CNN-static,而且在许多具体任务中展现出显著的优势,这是因为适当的微调确实是有利的,它使得向量更加贴合具体的任务需求。
在小样本数据集上,CNN-multichannel模型的表现明显优于仅使用单个通道模型的情况,这实际上体现了在保持向量与原始值之间距离的同时保留一定变化空间的一种折中策略。

代码复现(pytorch)

复制代码

    class CNN(nn.Module):
    def __init__(self, vocab_size, embedding_dim, n_filters, filter_sizes, output_dim, dropout, pad_idx):
        super(CNN, self).__init__()
        
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx = pad_idx)
        self.convs = nn.ModuleList([
                                    nn.Conv2d(in_channels = 1, 
                                              out_channels = n_filters, 
                                              kernel_size = (fs, embedding_dim)) 
                                    for fs in filter_sizes
                                    ])
        
        self.fc = nn.Linear(len(filter_sizes) * n_filters, output_dim)
        self.dropout = nn.Dropout(dropout)
        
    def forward(self, text):
        #text = [sent len, batch size](torchtext加载数据后句长在前, batch在后, 所以需要先permute)
        text = text.permute(1, 0)
        #text = [batch size, sent len]
        
        embedded = self.embedding(text)
        #embedded = [batch size, sent len, emb dim]
        
        embedded = embedded.unsqueeze(1)
        #embedded = [batch size, 1, sent len, emb dim]
        
        conved = [F.relu(conv(embedded)).squeeze(3) for conv in self.convs]
        #conv_n = [batch size, n_filters, sent len - filter_sizes[n]]
        
        pooled = [F.max_pool1d(conv, conv.shape[2]).squeeze(2) for conv in conved]
        #pooled_n = [batch size, n_filters]
        
        cat = self.dropout(torch.cat(pooled, dim = 1))
        #cat = [batch size, n_filters * len(filter_sizes)]
            
        return self.fc(cat)

全部评论 (0)

还没有任何评论哟~

Convolutional Neural Networks for Sentence Classification阅读笔记及复现

文章目录 TEXTCNN 1\.网络结构 EmbeddingLayer ConvolutionLayer MaxPoolingLayer SoftMax分类Layer 2\.参数与超参数 3\.变种 ...

TextCNN Convolutional Neural Networks for Sentence Classification阅读笔记

论文原文ConvolutionalNeuralNetworksforSentenceClassification 论文信息EMNLP2014 论文解读ZhenyuZhang&HytnChen 更新时间...

论文阅读：《Convolutional Neural Networks for Sentence Classification》

重磅专栏推荐：《大模型AIGC》《课程大纲》《知识星球》本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和StableDiffusion等。我们将深入研究大型模...

论文阅读-Convolutional Neural Networks for Sentence Classification（TextCNN）

目录模型原理 1.1输入层 1.2卷积层 1.3池化层 1.4全连接层模型特点 YoonKim在2014EMNLP发的论文。 TextCNN模型作为文本分类模型，通过验证实验以及业界的共识，在文本...

Convolutional Neural Networks for Sentence Classification

引言这是YoonKim发表于2014年的EMNLP上的论文，也就是经常说到的TextCNN。 CNN一开始提出来是作为图像或者语音这种特征连续任务的处理方式，这篇论文则是尝试将CNN用于文本这种离散...

Convolutional Neural Networks for Sentence Classification

卷积神经网络用于文本分类整理学习笔记也是把知识系统化的过程。最近在研究YoonKim的一篇经典之作ConvolutionalNeuralNetworksforSentenceClassificat...

[论文笔记]Convolutional Neural Networks for Sentence Classification

引言这是对经典的TextCNN1论文的阅读笔记。核心思想使用CNN来做句子级分类任务。作者提出了一种将简单的CNN应用在无监督方法word2vec或Glove得到的词向量上，来完成句子分类任务...

论文阅读《Convolutional Neural Networks for Sentence Classification》Yoon Kim

摘要：我们报告了一系列在预训练的单词向量之上用卷积神经网络（CNN）训练的实验，用于完成句子级分类任务。我们展示了一个具有很少超参数调整和静态向量的简单的CNN，它可以在多个基准测试中获得出色的结果。...

《Convolutional Neural Network for Sentence Classification》论文阅读笔记

文章前瞻： 1.本论文作者YoonKim发表于2014年的EMNLP，TextCNN用来处理句子级分类任务。 2.本文的超参数设置：dropout=0.5，filtersize=3,4,5，featu...

论文笔记（NLP）——Convolutional Neural Networks for Sentence Classification

1.abstract 本篇论文报告了一系列用预训练词向量上训练的CNN进行句子级分类任务的实验。展示了有少量参数调整和静态向量的简单的CNN在多个基准上达到了很好的效果。通过微调学习特定任务的向量能够...

是否确定退出登录?

Convolutional Neural Networks for Sentence Classification阅读笔记及复现

文章目录

TEXT-CNN

1. 网络结构

Embedding Layer

Convolution Layer

Max-Pooling Layer

SoftMax分类Layer

2. 参数与超参数

3. 变种

4. 实验

代码复现(pytorch)

全部评论 (0)

相关文章推荐

Convolutional Neural Networks for Sentence Classification阅读笔记及复现

TextCNN Convolutional Neural Networks for Sentence Classification阅读笔记

论文阅读：《Convolutional Neural Networks for Sentence Classification》

论文阅读-Convolutional Neural Networks for Sentence Classification（TextCNN）

Convolutional Neural Networks for Sentence Classification

Convolutional Neural Networks for Sentence Classification

[论文笔记]Convolutional Neural Networks for Sentence Classification

论文阅读《Convolutional Neural Networks for Sentence Classification》Yoon Kim

《Convolutional Neural Network for Sentence Classification》论文阅读笔记

论文笔记（NLP）——Convolutional Neural Networks for Sentence Classification