bert 是单标签还是多标签 的分类_基于深层神经网络的多标签分类问题的高层特征和标签提取...
1 摘要
在深层神经网络中,池层有助于减少冗余和参数数量,而不需要执行额外的学习过程。虽然这些运算符能够处理单标签和多标签问题,但它们的具体目标是减少特征空间,因此对于多标签数据,这也应该在标签空间中完成。另一方面,现有的池操作符在处理没有明确拓扑结构的(多标签)数据集时并不理想。针对多标签分类问题,本文提出了一种基于双向关联的混合层的深层神经网络结构,用于提取高层特征和标签。论文使用了一个关联函数来检测不同的神经元对,将这些神经元聚集成混合神经元。在第一层,提出计算变量之间的皮尔逊相关性作为量化关联值的基础。此外,论文提出了一个迭代过程,允许估计在更深层次的混合神经元之间的关联度,而不需要重新计算相关矩阵。这种深层神经结构的主要优点是,它允许在没有特定拓扑组织的情况下提取数据集上的高级特征和标签。数值模拟实验结果表明,文章的双向神经网络有助于减少问题特征和标签的数量,同时保持网络的分类能力。
2 引言
在传统的监督式学习算法中,实例通常与一个标签相关联,因此每个观察结果都属于一个决策类。而多标签数据的显著特点是每个实例可以同时属于多个类。多标签分类任务主要是通过分析训练集来预测未知实例的标签集。这个学习的概念出现在许多现实世界的情况中。例如,一个基因在酵母基因功能分析中可能有多个功能,一幅图像可能与自然场景分类中的一组标签相关,而一个文档可能在自动网页分类中属于几个预先确定的主题。多标签问题往往是高维的,特征提取有助于降低建立和开发多标签分类算法的复杂度。深度学习的任务之一就是从可用数据中学习高级特性,这些高级特征表示能够加快学习速度的信息颗粒。在多标签分类的情况下,仅提取高层特征是不够的,因为这些问题通常涉及大量的标签。
一些作者在深度学习技术的启发下提出了多标签分类解决方案。其中一些解决方案依赖于自动编码器,这些方案考虑到了非监督式学习的特性。利用这种方法,可以有效地提取任何给定数据的底层特征,从而得到编码良好的减少的数据集。同时,其他作者依靠卷积神经网络(CNNs)来解决预测问题,如图像处理,声音,文本和视频。CNNs混合使用卷积、池和标准处理层来捕获描述问题的抽象特征。卷积层的作用是检测来自前一层的特征的局部连接,而池层用于合并合理相似的特征到高层。
在构建执行剩余处理操作的多层或递归神经网络之前,池层有助于减少冗余和参数数量。两种常用的池方法分别是平均池和最大池,它们分别计算特征在特定邻域的平均或最大。这些操作符的共同点是,它们专注于具有定义良好的结构(如图像和视频)的数据。然而在其他领域中,数据可能并没有一个拓扑结构。在这些情况下,使用标准的池操作符可能没有什么意义。对于多标签数据,我们可以从在标签空间上实现类似的操作中获益匪浅。
本文提出了一种基于双向神经网络的高层特征和标签提取方法,该方法从多标签数据中提取高层特征和标签。该体系结构由多个基于堆叠关联的池层组成,这些池层是从特性和标签同时开始构建的。这个池操作符使用一个基于关联的函数来检测要聚合成高级特性的特性对。这些特性将与那些未满足用户指定的最小关联阈值的神经元实体一起组成下一个池层。为了减轻计算神经元之间的关联时的计算负担,我们还提出了一个名为关联向前传播的迭代法。这种方法允许同时在特征和标签上传播关联。一旦高层次的特征和标签被提取,我们连接他们与一个或多个隐藏层组成的 ReLU,sigmoid或tanh神经元。这为我们的双向深层神经元网络提供了预测能力,因为池层仅用于提取高级特征和标签。最后,由于网络的输出层是由标签的抽象和简化表示组成的,因此需要进行解码处理。为此,我们通过一个或多个隐藏处理层将高级标签与原始标签连接起来。在多个 MLC 数据集上的数值模拟结果显示,问题特征和标签的数量显著减少,同时不影响网络的识别能力,并且网络训练时间也更小。
3 相关研究
(1)池变量
最大池和平均池是最简单的,被广泛使用和首选的池方法。前者选择每个池区域中最具代表性的元素,而后者采用该区域中元素的算术平均值。
广义池使用不同的策略将传统的最大值和平均池结合起来。混合最大平均混合法是从历史数据中学习特定混合比例参数的最简单方法,而门限最大平均法则学习与混合区域具有相同维数的”门控掩模”。使用Sigmoid函数转换门控掩模与合并区域之间的内部乘积的标量结果,以产生混合比例。最后使用二叉树进一步学习池过滤器和他们的组合。
全局平均池将每个特征图的平均值替换为完全连接的层,从而为softmax层提供数据。该运算的一个优点是,它自然地通过关联特征图和决策类来拟合卷积字符,这可以解释为输出的置信度值;另一个优点是没有要优化的参数,这可以防止发生过拟合。
空间金字塔池通过生成一个固定长度的表示(不考虑图像尺度)来消除 CNNs 的固定大小约束,然后将其输入到完全连接的结构中。在网络层次结构的更深层次的信息聚合降低了对裁剪的需要,图片允许任意的长宽比和尺寸。因此,当输入的图像具有不同的尺寸时,具有相同滤波器大小的模型将在不同的尺寸下提取特征。最粗糙的金字塔级别有一个单一的容器覆盖整个图像,类似于全局池操作。
(2)MLC 问题的深度学习方法
在深度学习领域,CNN已经被证明是解决图像相关任务的有力工具。过去已有研究提出了一个统一的多标签图像分类框架,该框架利用CNNs和递归神经网络对联合图像/标签嵌入空间中的标签共现关系进行建模。
捕获多个类标签之间的共现和相互依赖关系有助于提高算法的性能。基于这个目标,Wicker 等人提出了一种多标签分类器,它使用自动编码器来提取特征之间的非线性依赖关系。类似地,C.K等人引入了一个深层神经网络,通过正则相关自动编码器来利用标签的相关性。另一方面,J. Read等人提出了一种限制性玻耳兹曼机器的深度学习方法。该模型试图减少特征之间的相互依赖性,从而最终实现更好的特征空间表示。A.Law等人设计的堆叠式自动编码器用于产生一个鉴别和减少的多标签数据的输入表示,能够从任何给定的数据中提取基本特征。Y.Cheng等人提出了一种输入空间的核极值学习机自动编码器,同时采用非平衡标记完成算法来发现标记之间的相关性。
(3)总结和动机
在对文献进行总结后,得出两个结论。首先,在传统 MLC 数据集(不面向图像或视频的数据集)上使用现有的池算子和卷积算子可能没有意义。图像中的池区域只是一个子图像,其中像素相对于其邻居保持其位置。在使用传统数据集操作时,这已经不再适用,因为只需交换实例的顺序就可以获得不同的池区域。这表明,不再保留池区域的不变性属性,因此需要提出更充分的操作。其次,MLC 问题往往涉及大量的标签,从而导致非常密集的网络。这意味着我们可以从提取高级特征和标签中获益,这样我们就可以构建更简单的神经系统。文献中发现的自动编码器从表格数据集中学习有效的高级特征表示,但是他们没有提供类似的机制来获得标签集的高级表示。
4 解决方法
在这一部分中,我们提出了一个由层叠关联的池层组成的双向网络,用于在没有特定拓扑结构的 MLC 问题中提取高级特征和标签。
(1)基于双向关联的池
双向神经网络体系结构的主要构建模块是基于关联的池层,其目的是提取高层次的特征和标签。当使用这些特性时,第一个池层由表示问题特性本身的神经元组成(称为低级特性),而在较深的池层中,神经元表示从池处理过程中出现的高级特性。同样的道理也适用于使用标签的操作。在这两种情况下,t层的混合神经元将由属于前一层的神经元组成,这样它们就达到了一定的关联阈值。这也表明,如果底层特征(和标签)彼此关联不好,也可能会进入更深的层次。
池操作背后的直觉如下。T层的神经元汇集来自(t-1)层的低层或高层特征神经元。为了确定特征的可行集合以整合t层的k次混合神经元,需要计算t层神经元的可行域。这组神经元包括属于(t-1)层的所有神经元对,不包括那些已经用于在当前层中创建 k-1混合神经元的神经元。同样的道理也适用于合并问题标签。基于关联的池使得高级特性和标签出现,从而逐步降低了问题维度。应该强调的是,提议的体系结构假设池层层叠加,因此在两个连续的层之间没有可学习的参数可以调整。
(2)计算神经元之间的关联程度
该方法以变量间的皮尔逊相关系数为基础,计算混合神经元之间的关联度。然而,这将意味着相关矩阵在每一层都需要重新计算。作为一种替代方法,我们可以计算低层神经元之间的关联矩阵(即问题的特征和标签) ,并从前一层中每对神经元之间的关联程度推导出高层特征和标签之间的关联程度。这种方法称为基于向前传播的关联,它可以抑制扫描每个池层上的训练集的需要。这种方法背后的直觉是,我们可以通过组成混合神经元的神经元之间的关联程度来估计混合神经元之间的关联程度。因此,只需要在以前的池层中估计关联度值,就可以确定当前层中神经元的关联度。
(3)提出的网络结构
首先先说明一下双向关联的池是如何工作的,下图显示了一个例子,其中两个池层正在运行的功能(左图)和标签(右图)。在这个例子中,通过特征对(f1,f2)和(f3,f4)以及标签对(l1,l2)和(l3,l4)的关联,形成了五个高级神经元。f5特性与另一个特性没有关联,因此它直接转移到下面的池层。我们的方法将特征的数量从5个减少到3个,标签的数量从4个减少到2个,即分别为40%和50%的减少率。

提取高层特征后,设计一个神经系统进行多标记分类处理。提出的体系结构包括两个子网络,一个执行高级分类,另一个解码高级预测。在第一个子网络中,最后一个池层的输出用作一个完全连接的网络的输入,该网络有一个或多个隐藏层,将高级特性映射到高级标签。第二个子网络也由一个或多个隐藏层组成,它将高级标签(由第一个子网络预测)解码为原始问题标签。这些隐层可以配备 ReLU、 sigmoid 或tanh函数,从而赋予神经系统预测能力。隐层数和隐层神经元数是由用户根据问题的复杂性和硬件可用性来定义的参数。下图描绘了从基于关联的池层出现的五个高级神经元的网络结构。在这个例子中,f1(2)、f2(2)、f3(2)表示高级特征,l1(2)、l2(2)表示高级标签,而l1(1)、l2(1)、l3(1)、l4(1)表示与问题相关的低级标签。这些高级神经元通过两个多层网络连接,每个网络由两个隐层组成。值得强调的是,需要使用第二个网络将抽象表示(高级标签)转换回其原始形式。因此模型可以从编码的表示中重建数据。

5 总结
本文介绍了一种新的网络体系结构,该体系结构采用基于双向关联的池技术从多标签数据中提取高级特征和标签。我们的方案不需要输入数据具有任何像文字和视频那样的拓扑属性。汇聚层的块不涉及在培训阶段可学习的参数的变化,因此模型背后的目标是提取高级特征,而不是产生更好的预测。但是,特征或标签必须显示某种程度的相关性,因此这个网络也可能不适用于所有情况。
数值模拟实验表明,我们的方案能够显著减少参数的深前馈神经网络在不损害他们的辨别能力。研究还发现,调节问题标签池的关联阈值对算法性能有显著影响。相比之下,当相关性假设难以实现时,基于双向的池只需将神经元从当前层转移到下一层,而不会影响性能或降低网络性能。
提取高级特征和标签增加了用更透明的推理模型构建网络的可能性。例如,通过使用事后解释技术,我们可以阐明模型的内部推理时,运作的高级特征。这些技术通常具有指数级的算法复杂性,因此具有较少参数的网络当然有助于达到这一目标。
