Advertisement

文本多标签分类-概述

阅读量:

一.多类VS多标签

  • 多类分类(Multiclass classification)

表示分类任务中有多个类别,多类分类是假设每个样本都被设置了有且仅有一个标签。 比如对一堆水果图片分类, 它们可能是橘子、苹果、梨等,一个水果可以是苹果或者梨, 但是同时不可能是两者。

  • 多标签分类(Multilabel classification)

给每个样本一系列的目标标签. 可以想象成一个数据点的各属性不是相互排斥的,比如一个文档相关的话题. 一个文本可能被同时认为是宗教、政治、金融或者教育相关话题。就是同一个实例,可以有多个标签。

二.多标签分类的难点

  • 类标数量不确定

有些样本可能只有一个类标,有些样本的类标可能高达几十甚至上百个。

  • 类标之间相互依赖

例如包含蓝天类标的样本很大概率上包含白云,如何解决类标之间的依赖性 问题也是一大难点。

  • 多标签的训练集比较难以获取。

三.两种思路

1)转化问题

转化问题数据,使之适用现有算法 ,比如把问题转化为一个或多个 单目标分类问题,或是回归问题。

2)算法适应

指针对某一特定的算法进行扩展,从而能够处理多标签数据,改进算法,适用数据

  • 转换问题

1)集成式

将训练样本按每个标签构造一个训练集,每个样本属于或不属于这个标签,对每个标签单独训练一个分类器,然后将多个分类器的结果合成。

2)转换成多分类

将每个多标签单独看做一个新标签,在一个更多的标签集上做多分类。通过设定阀值来取多标签.(例如使用sigmoid,取所有大于0.5的标签作为多标签)

3)标签组合

将每个多标签组合单独看做一个新标签,在一个更多的标签集上做多分类。

  • 适应算法

1)传统机器学习模型中的多标签分类模型有:

kNN多标签版本MLkNN,SVM的多标签版本Rank-SVM等。

2)在深度学习中常常是修改多分类模型的输出层,使其适用于多标签的分类。

全部评论 (0)

还没有任何评论哟~