Advertisement

One-Error多标签分类_多分类及多标签分类算法

阅读量:

一、单标签多分类

1、单标签二分类算法原理

复制代码

``

1、单标签二分类这种问题是我们最常见的算法问题,主要是指label 标签的取值只有两种,并且算法中只有一个需要预测的label标签;

``

直白来讲就是每个实例的可能类别只有两种(A or B);此时的分类 算法其实是在构建一个分类线将数据划分为两个类别。

``

2、常见的算法:Logistic、SVM、KNN、决策树等

``
bfcb93899eede006ba17d0b1e4e0ce8b.png

2、单标签多分类算法原理

复制代码

``

1、单标签多分类问题其实是指待预测的label标签只有一个,但是 label标签的取值可能有多种情况;直白来讲就是每个实例的可能

``

类别有K种(t1,t2,...tk,k≥3);

``

2、常见算法:Softmax、SVM、KNN、决策树(集成学习 ----RF(Bagging)、Boosting(Adaboost、GBDT);XGBo

``

  1. 3、是一个多分类的问题,我们可以将这个待 求解的问题转换为二分类算法的延伸,即将多分类任务拆分为若 干个二分类任务求解,

  2. 具体的策略如下:

  3. • One-Versus-One(ovo):一对一

  4. • One-Versus-All / One-Versus-the-Rest(ova/ovr):一对多

  5. • Error Correcting Output codes(纠错码机制):多对多

3、单标签多分类算法原理-ovo

复制代码

``

• 原理:将K个类别中的两两类别数据进行组合,然后使用组合后的 数据训练出来一个模型,从而产生K(K-1)/2个分类器,将这些分类

``

器的结果进行融合,并将分类器的预测结果使用多数投票的方式 输出最终的预测结果值。

``
3daa3e066b3a4a80d149250f36c3e5db.png

4、单标签多分类算法原理-ovr

复制代码

``

1、ovr与softmax的区别:

``

① softmax 每一次训练模型用的是整个训练数据中的某一类别的数据,从而的该类别的权重系数,通过测试集计算各个类型权

``

重的预测值,取最大的预测值(或者概率)的类型作为预测类型。

``

② ovr 每一次是代入所有的训练集数据来训练子模型,取出结果为正例的类

``

别(多个正例取最大值)。

``
5a22434abb584e68c6f660e52e0a1fd8.png

5、OvO和OvR的区别

2b15d7480135d9ab0fe25c30aeec3685.png

6、单标签多分类算法原理-Error Correcting

复制代码

``

• 原理:将模型构建应用分为两个阶段:编码阶段和解码阶段;编 码阶段中对K个类别中进行M次划分,每次划分将一部分数据分 为

``

正类,一部分数据分为反类,每次划分都构建出来一个模型, 模型的结果是在空间中对于每个类别都定义了一个点;解码阶段

``

中使用训练出来的模型对测试样例进行预测,将预测样本对应的 点和类别之间的点求距离,选择距离最近的类别作为最终的预

``

测 类别。

``

![572b9c5fa800b7a503208a353d3473e3.png](https://ad.itadn.com/c/weblog/blog-img/images/2025-01-29/WzdLI8OF3PRckmlDgB2Xav1xoJfV.png)

``

**二、多标签多分类**

``

复制代码
复制代码
``1、多标签多分类这类问题的解决方案可以分为两大类:``

1) 转换策略(Problem Transformation Methods);

复制代码
``• Binary Relevance(first-order) --------- y标签之间相互独立``

• Classifier Chains(high-order) --------- y标签之间相互依赖(链式)

复制代码
``• Calibrated Label Ranking(second-order) --------- 了解``

2) 算法适应(Algorithm Adaptation)。

复制代码
``• ML-kNN ``

• ML-DT

复制代码
`![f9ba35134342b47d8c01d59a3de9dba0.png](https://ad.itadn.com/c/weblog/blog-img/images/2025-01-29/2opKZSbaV8F1LTPevEhNxkHi4Qzt.png)`

``

#### 1、 转换策略(Problem Transformation Methods)
```
```
``

`1、转换策略思想:将多标签多分类问题转化为多个单标签二分类(通过哑编码转换 >>>>>>> -1 , +1 )的子模型,将这些子模`

``

`型的结果合并。`

``
```
```
![368492f2943231ad0ace0a9b1a39f32f.png](https://ad.itadn.com/c/weblog/blog-img/images/2025-01-29/JdMsCTjaQEb3x7DLRHVqBkYm58yO.png)

  * 转化为多个单标签二分类 
![12437a2bda8eae6756b77cee8dcc09b7.png](https://ad.itadn.com/c/weblog/blog-img/images/2025-01-29/ECo1HNlkZOBcDsILVUQSyhXPa54Y.png)

  * Binary Relevance 与 Classifier Chains区别
![a37b36e83b1f940277d15462e77d831d.png](https://ad.itadn.com/c/weblog/blog-img/images/2025-01-29/ZThdVDSpq4ImYs5H1bcMXJEfjvAk.png)
![b6b1c2af0dcf008f333b90da2c613cdd.png](https://ad.itadn.com/c/weblog/blog-img/images/2025-01-29/c90t3yFWSUpG6esmX1u4vARTIkE8.png)

####  2、算法适应性
```
```
``

`1、ML-kNN的思想:对于每一个实例来讲,先获取距离它最近的k个实例,然 后使用这些实例的标签集合,通过最大后验概率(MAP)来`

``

`断这个实例的 预测标签集合的值。`

``

`2、最大后验概率估计(MAP)贝叶斯估计 与 最大似然估计(MLE)区别?`

``

`答:最大后验概率(MAP)贝叶斯估计:其实就是在最大似然估计(MLE,样本划分目标属性Y的概率不是处处相等)中加入了这个要估`

``

`计量的先验概率分布(即样本划分目标属性Y的概率不是处处相等)。`

``
![467dfa46310e0d5f54497f3bf5146edc.png](https://ad.itadn.com/c/weblog/blog-img/images/2025-01-29/0XfsR7cy12TBVrlILoeMp4gYFNCH.png)

## 三、API的使用

####  1、单标签多分类
![fec5c5ea739ce17b876cec862c770fc5.png](https://ad.itadn.com/c/weblog/blog-img/images/2025-01-29/UnFbSvAOXqWwspQ39lJVoEreZc2a.png)

####  2、多标签多分类
```
```
`![94ec2d992ded00feb9efcb6aefa4c2f7.png](https://ad.itadn.com/c/weblog/blog-img/images/2025-01-29/D4zEQ6SrPIahBe2MxtXy05JpksvU.png)`

``
```
```

全部评论 (0)

还没有任何评论哟~