论文笔记——A Survey on Text Classification_From Shallow to Deep Learning
论文笔记——A Survey on Text Classification_From Shallow to Deep Learning
1.1****摘要
回顾了1961至2020年间最新的研究进展,并特别关注自浅层向深层学习模型的发展路径。基于所涉及的具体文本材料及相应的特征提取与分类模型,构建了一个基于这些模型的文本分类系统。随后对各个类别进行了深入探讨与分析,并针对预测效果评估的技术演变及其对应的基准数据集进行了系统分析。通过多维度对比分析展示了各类技术间的优劣特点,并通过多维度对比分析展示了各类技术间的优劣特点,并通过多维度对比分析展示了各类技术间的优劣特点,并通过多维度对比分析展示了各类技术间的优劣特点

每个模块中使用经典方法进行文本分类的流程图
以下是对输入文本的改写
1.2****文本分类方法
(一)浅学习模型步骤:在预处理阶段中对原始输入文本进行了处理,并通过这一过程实现对浅学习模型的训练工作;该过程通常包含分词操作、数据清洗以及统计数据特征等环节;最终其表示结果被分类器用来进行分析或判断。

进行特性的工程是一项复杂的系统性工程。在构建分类器之前,我们需要积累经验和知识以从原始数据中获取属性信息。浅学习算法被用来利用从原始数据中获取的多种属性信息来构建初始分类器模型。

(二)深度学习模型

ReNN通过将输入文本中的每一个单词设为模型架构中的子单元,并利用加权矩阵将其聚合为上层父单元,在整个架构中加权矩阵被共享使用;各上层父单元与其对应的子单元在维度上保持一致;最终系统通过递归聚合所有子单元来构建顶层结构,并基于此推断输入文本对应的标签内容

递归神经网络的结构
2)MLP:这是一个三层MLP模型。它包含一个输入层、一个在所有节点中都有激活功能的隐藏层和一个输出层。每个节点连接一个特定的权重wi。段落向量(Page-Vec)是基于它的方法(与CBOW相比,它增加了一个通过矩阵映射到段落向量的段落标记。该模型通过这个向量与单词的三个上下文的联系或平均值来预测第四个单词。段落向量可以被用作段落主题的存储器,并且被用作段落函数并被插入到预测分类器中)。

多层感知器的结构**(MLP)**
3)RNN:首先,通过单词嵌入技术将每个输入单词转化为预定义的一个特定维度的空间中的向量表示。然后依次将这些编码后的单个词向量依次传递给RNN单元进行处理。每一个RNN单元都会根据前一时刻的状态以及当前时刻的信息生成新的状态和输出结果;其输出结果则会被传递到下一个隐藏层继续处理。值得注意的是,在整个神经网络模型的设计过程中各处都采用了相同的参数进行计算;最终,在完成整个序列数据的学习之后我们可以通过计算整个序列经过神经网络处理后的最终状态信息来进行标签预测。

递归神经网络的结构**(RNN)**
在反向传播过程中,在RNN中权值通过grads进行调整。这些grads通过连续的导数乘法计算出来。当导数值过小时,在连续乘法过程中可能导致grads趋近于零。长短期记忆网络(LSTM),作为RNN的一种改进模型,在一定程度上缓解了这一问题。它由一个存储当前状态信息的状态单元以及三个门控机制构成。这些控制机制分别负责接收新输入、抑制旧输入以及决定当前输出的信息来源。与传统的分类方法相比,LSTM模型能够更加有效地捕捉长距离依赖关系,并且通过遗忘门机制滤除无关联的信息。
4)CNN:首先, 将输入文本的所有词向量进行拼接形成一个矩阵. 接着将此矩阵输入到卷积层中, 该卷积层包含了多个不同维度的滤波器. 最后, 其输出结果随后经过池化操作, 并对各池化区域的最大值进行合并, 得到文本的整体特征表示. 最终特征通过全连接层完成分类任务. TextCNN架构通过单个卷积核能够更加有效地识别出max-pooling区域内的关键短语, 同时保持词嵌入在外 trained的同时学习其他超参数.
以文本中的最小单位划分,并将其划分为字符级别、词级别以及句级别的三种类型进行分类讨论。其中,在字符级别的嵌入方法能够应对词汇表外(OOV)现象;而词级别的嵌入则负责提取词语的基本语法和语义特征;值得注意的是,在句级别的嵌入能够揭示不同句子之间的相互作用关系。

卷积神经网络**(CNN)**的架构
5)Attention:
层次化注意力网络(HAN)通过深度学习框架实现了复杂语义关系建模功能如图11所示其架构包含两个编码器模块与多层次注意力机制注意力机制赋予模型对不同输入赋予不同关注程度随后将原始词汇映射至统一维度空间中生成句嵌表示接着整合各子句嵌表达形成文档级别语义表示双层注意力机制能够有效区分各单词与短语在语义表征中的重要性这种多级化处理方式不仅提升了模型识别能力还能准确定位关键信息有助于准确评估其对分类任务的关键性

层次注意网络的体系结构**(HAN)**
Self-attention通过生成查询(Query)、键(Key)和值(Value)矩阵,在句子中定位每个单词的重要性分布,并捕获文本分类所需的长程依赖关系。每个输入词向量ai被分解为三个n维向量qi、ki和vi,并经过自注意力机制处理后得到输出向量ai。

和

,所有的输出向量都可以并行计算

self-attention****的一个例子
Transformer:主要依赖于unsupervised learning approach自动提取相关的语义信息,并生成预训练任务以帮助机器学习模型理解和捕捉语义信息。

预训练模型

预训练模型架构
图神经网络(GNN)通过将文本分类任务转化为图节点分类问题来处理。首先,在构建图结构时,我们将四个输入文本及其内部的所有单词作为节点进行处理。这些节点之间通过黑色粗体线段连接着形成一个完整的图形结构。其中:
- 图节点之间的连接关系由黑色粗体边决定
- 各节点之间的连接权重则反映了这些术语在语料库中的共同出现频率
经过多层神经网络处理后 - 各节点所代表的状态能够有效捕捉到相应的语义信息
最终,在完成整个图神经网络模型训练后 - 我们即可根据各节点的状态预测所有输入文本对应的类别标签

GCN****的模型
作为一种将文本转化为词图的高效模型,DGCNN不仅实现了直接映射还增强了模型对语义层次的理解能力
基于TextGCN方法生成了异构式的文本与词汇图谱,并且该模型能够同时获取到全局范围内的关键词共现模式。
该系统通过图神经网络分析和建模文本级别的语义关系网络,并进而从现有文档中提取近义词或同义词候选词以构建有效的嵌入表示。
图注意力网络(GATs)通过关注其邻居来利用隐式的自我注意力机制。从而发展出了一系列基于GAT的模型用于生成节点的隐式表示。带有多重注意力机制的异构图注意力网络(HGAT)致力于学习当前节点的不同邻居及其类型间的相对重要性。该模型通过在图上传播信息并捕获关系结构来缓解半监督下短文本分类中的语义稀疏性问题。MAGNET则基于GATs捕获标签间的关联性,并通过构建特征矩阵与相关矩阵来训练分类器。
一些DNNs历年的数据,评价指标和实验数据集等

该系统集成了多种自然语言处理功能模块(NLP),涵盖情感识别模块(SA)、主题分类机制(TL)、新闻分门别类系统(NC)、智能问答引擎(QA)、对话行为识别模块(DAC)、逻辑推理引擎(NLI)、关联关系识别系统(RC)以及事件趋势预测模型(EP)。
1.3****数据集与评价指标
(一)数据集
**数据集的汇总统计C:目标类别数量****L:平均句子长度N:**数据集大小

(二)评价指标

1)准确率、错误率:


2)精确度、召回率、F1:

3)Micro-F1:

4)Macro-F1:

5)P@K: 每个文本都有一组L个基本事实标签,

按照概率递减的顺序,

,k处的精度为:

其中,在每个文本上都有若干的基本事实标签或是可能的答案的数量;而k则是极端多标签分类中所选择的特定数量
6)NDCG@K:

1.4****性能
基于深度学习的文本分类模型在原始数据集上采用分类准确度作为性能衡量标准

1.1****摘要
回顾自1961年至今的研究进展,特别关注浅层学习与深度学习之间的演进过程。基于所涉及的具体文本以及用于特征提取与分类的不同模型,构建了一种专门针对文本分类的方法。随后,对各个类别进行了深入探讨,梳理支撑预测评估的技术演变及相应的基准数据集。本研究通过提供各技术间的系统性对比分析,深入阐述了几类评价指标的优势与不足,最后总结该研究的核心意义、未来发展方向及其面临的主要挑战。

每个模块中使用经典方法进行文本分类的流程图
传统机器学习模型依赖于人工特征提取技术以获得高质量样本特征,并随后应用传统机器学习算法完成分类任务。然而,在这种情况下该方法的表现受限于特征提取的质量与效率。相比之下,在深度学习框架中这些非线性变换能够将原始数据映射到更适合分类的空间中。现有的文本分类研究大多聚焦于基于深度神经网络(DNNs)的方法。
1.2****文本分类方法
(一)浅学习模型步骤:首先经过预处理阶段对原始输入文本进行操作,在这一过程中涉及对浅学习模型进行训练的具体步骤。具体步骤通常涉及三个关键环节:分词、数据清洗以及统计数据分析。接着阐述的是文本表示的目标——将其转化为更适合计算机理解和分析,并尽量保持原有信息完整性的方式。最后一步则是提取特征后将这些转换后的文本特征输入到相应的分类器中进行识别

特性工程是一项复杂的任务。在构建分类系统之前,请确保我们已经收集了相关知识和经验,并从原始数据中提取了丰富的特征信息。浅学习算法基于从不同类型的原始文本中提取的各种文本特征来构建基础分类器模型。

(二)深度学习模型

ReNN是一种序列神经网络架构,在其模型结构中,默认情况下会将输入文本中的每一个单词设定为模型结构中的叶子单元。随后通过加权矩阵将这些叶子单元组合成内部父单元,并且这些加权关系在整个网络架构中被共享使用。每一个内部单元都与原始输入单元保持一致的特征维度。最终系统会将整个序列的所有特征逐步汇聚到一个最终向量上,并基于此进行分类或回归任务。

递归神经网络的结构
2)MLP:由三层神经网络构成的MLP模型。其中包含一个输入层、一个所有节点均具备激活功能的隐藏层以及一个输出层。每个节点都连接到特定的权重wi。段落向量(与CBOW不同的是,在构建过程中会引入一个用于映射到段落向量的段落标记. 该模型通过将该向量与单词在其前后出现的情况进行综合考量来预测下一个单词。值得注意的是,在应用中我们会将该向量不仅用作存储表示段落主题的信息,同时也在预测分类器中嵌入作为函数的一部分使用。

多层感知器的结构**(MLP)**
3)RNN:首先,通过单词嵌入技术为每个输入单词生成预定义的向量表示。然后,在序列处理过程中逐个地将嵌入后的单词向量依次输入到RNN单元中进行计算。每个RNN单元都会产生与输入向量相同维度的输出,并将这些输出传递给模型中的下一个隐藏层进行信息传递。为了提高模型效率和减少参数冗余,在模型设计中各个部分共享相同的参数设置,并且每个输入单词对应的权重保持一致。最后,在整个序列处理完成之后,根据隐藏层的最后一层输出结果来推断或确定输入文本所对应的标签。

递归神经网络的结构**(RNN)**
在RNN的反向传播过程中,权重通过梯度来进行调整。这些权重的变化依赖于导数运算中的连续乘法过程。当导数极小时,在连续乘法的过程中可能导致梯度消失问题出现。长短期记忆单元(LSTM),作为RNN的一种改进模型,在一定程度上缓解了这一问题。它由一个能够记住任意时间间隔内数值大小的记忆单元以及三个门控结构组成。这些门控结构包括输入门、遗忘门以及输出门。基于这种机制设计的LSTM分类方法能够更好地捕捉上下文特征之间的联系,并且利用遗忘门机制有效地过滤掉无用的信息内容。这样一来,在提高分类器的整体性能方面具有显著的优势
4)CNN:第一步是将输入文本的所有单词映射为其对应的词向量并进行连接操作生成一个二维矩阵。接着将此矩阵作为输入传递给卷积神经网络中的卷积层,在该过程中网络会自动学习提取不同层次和维度的特征信息。随后对提取到的所有特征进行空间上的聚合操作得到一组全局表征特征并将其连接起来形成完整的语义表达表征。最后通过全连接层对其进行分类处理即可完成文本分类任务。改进后的TextCNN模型不仅能够通过多通道卷积操作有效地识别出最大池化作用下的关键短语信息而且能够通过保持原始词嵌入固定来学习其他重要的模型参数
基于文本的基本单位, 我们将所有类型的嵌入方法划分为三个层次: 字符级别、词级别以及句级别. 字符级别的嵌入能够处理OOV(即词汇表外)的情况; 词级别的嵌入能够学习词语的语法结构与语义内涵; 进一步而言, 句级别的嵌入则有助于理解不同句子之间的关联性

卷积神经网络**(CNN)**的架构
5)Attention:
分层注意力网络(HAN)能够有效地从文本中提取关键信息点以实现更好的可视化效果(如图11所示)。该架构由两个编码器模块和两层相互作用机制组成。注意力机制允许模型根据输入内容分配不同权重。随后,在第一阶段中,系统将这些基本词汇聚合生成句嵌表达;接着,在第二阶段中,系统进一步整合这些句嵌表达形成文档级别的语义表示。两层注意力机制不仅能够识别每个单词的重要性还能够分析每句话在整体语义中的作用,从而有助于深入理解模型内部的知识表示路径

层次注意网络的体系结构**(HAN)**
Self-attention通过生成K、Q和V矩阵的方式,在句子中捕捉各单词在整个句子中的重要性分布,并揭示文本内部长程依赖关系。每个输入词向量ai由三个n维向量qi、ki和vi构成。经过自我注意力处理后, 输出向量ai可表示为

和

,所有的输出向量都可以并行计算

self-attention****的一个例子
Transformer模型多采用无监督学习方法自主提取语言的语义信息,并构建预训练目标以指导机器学习任务的理解。

预训练模型

预训练模型架构
GNN:将文本分类任务转化为图节点分类问题。具体而言,该方法将四个输入文本以及文本中的每个单词定义为图中的独立节点,并构建相应的图结构。其中图节点之间的连接关系通常被表示为黑色加粗的边,在这种设置下分别代表文档与单词之间的关系以及单词间的共现关系。通过边权重的方式反映该词在语料库中的共现频率程度。随后,在中间层中使用嵌入向量分别表示每个单词及其所属文本的信息,并通过多层非线性变换提取更高层次的抽象特征。最后,在构建好的图结构模型上对所有输入样本进行标签预测。

GCN****的模型
DGCNN是一种能够将文本转化为词图的图卷积神经网络(graph-CNN),其主要优势在于利用CNN模型来学习和提取不同层次的语义特征。
TextGCN类型的文本图卷积网络被设计用于构建一个异构的词-文本关系图,并用于捕获全局范围内的词共现模式。
Texting技术通过独立建模的方式为每个文档建立相应的图表,并利用图神经网络(GNN)来学习文档级别单词之间的互动机制,在新的输入文本中成功地生成模糊词汇的嵌入表示。
图注意力网络(GATs)利用其邻居信息以实现隐含自注意力机制。由此导出了一系列基于GAT的方法用于生成各节点的潜在表示。带有多重注意力机制的异构图注意力网络(HGAT)旨在识别当前节点的不同邻接节点及其类型。该模型通过在网络传播信息并捕捉关系模式来应对半监督短文本分类中的语义稀疏性问题。MAGNET则利用GATs捕捉标签间的关联关系,并根据特征矩阵与相关矩阵构建分类器模型。
一些DNNs历年的数据,评价指标和实验数据集等

涵盖情感分析模块(SA)、主题识别技术(TL)、新闻分类系统(NC)、问答系统(QA)、对话行为识别技术(DAC)、自然语言推理模型(NLI)、实体关系识别任务(RC)以及事件预测系统(EP)的应用领域
1.3****数据集与评价指标
(一)数据集
**数据集的汇总统计C:目标类别数量****L:平均句子长度N:**数据集大小

(二)评价指标

1)准确率、错误率:


2)精确度、召回率、F1:

3)Micro-F1:

4)Macro-F1:

5)P@K: 每个文本都有一组L个基本事实标签,

按照概率递减的顺序,

,k处的精度为:

其中,L代表每个文本上的基本事实标签或潜在答案的数量;k表示在极端多标签分类中被选取的类别数量。
6)NDCG@K:

1.4****性能
采用深度学习技术开发的文本分类系统,在处理原始数据集时的准确度由分类准确性指标进行评估。

