文本多标签分类-概述
发布时间
阅读量:
阅读量
一.多类VS多标签
- 多类分类(Multiclass classification)
表示分类任务中有多个类别,多类分类是假设每个样本都被设置了有且仅有一个标签。 比如对一堆水果图片分类, 它们可能是橘子、苹果、梨等,一个水果可以是苹果或者梨, 但是同时不可能是两者。
- 多标签分类(Multilabel classification)
给每个样本一系列的目标标签. 可以想象成一个数据点的各属性不是相互排斥的,比如一个文档相关的话题. 一个文本可能被同时认为是宗教、政治、金融或者教育相关话题。就是同一个实例,可以有多个标签。
二.多标签分类的难点
- 类标数量不确定
有些样本可能只有一个类标,有些样本的类标可能高达几十甚至上百个。
- 类标之间相互依赖
例如包含蓝天类标的样本很大概率上包含白云,如何解决类标之间的依赖性 问题也是一大难点。
- 多标签的训练集比较难以获取。
三.两种思路
1)转化问题
转化问题数据,使之适用现有算法 ,比如把问题转化为一个或多个 单目标分类问题,或是回归问题。
2)算法适应
指针对某一特定的算法进行扩展,从而能够处理多标签数据,改进算法,适用数据 。
- 转换问题
1)集成式
将训练样本按每个标签构造一个训练集,每个样本属于或不属于这个标签,对每个标签单独训练一个分类器,然后将多个分类器的结果合成。
2)转换成多分类
将每个多标签单独看做一个新标签,在一个更多的标签集上做多分类。通过设定阀值来取多标签.(例如使用sigmoid,取所有大于0.5的标签作为多标签)
3)标签组合
将每个多标签组合单独看做一个新标签,在一个更多的标签集上做多分类。
- 适应算法
1)传统机器学习模型中的多标签分类模型有:
kNN多标签版本MLkNN,SVM的多标签版本Rank-SVM等。
2)在深度学习中常常是修改多分类模型的输出层,使其适用于多标签的分类。
全部评论 (0)
还没有任何评论哟~
