Advertisement

Data augmentation for imbalanced data

阅读量:

Data augmentation for imbalanced data

通过人造数据来平衡数据驱动模型对多数类数据的bias。

Smote

  • 可应用于单标记学习方案,在其中每个样本实例都具有一个二元标签(0或1),从而能够将所有实例按其标签属性划分为少数类别与多数类别两类。
  • 每个 minority 类别的样本实例均可通过生成其对应的增强数据集来实现数据扩展。具体而言, 特征向量由目标 sample 及其实现 k 近邻点的线性插值确定, 其标签属性与 minority 类标签一致。

SmoteR

  • 归于回归任务类别中进行处理后,标记值设定为连续区间(具体案例如年龄预测范围在0至150岁之间),并避免直接划分样本为少数类与多数类;
    \phi(Y):Y\rightarrow[0,1]
    计算得到各标记间的相关度:第一种方法由用户自行设定相关性标准;第二种方法采用概率密度模型进行评估;
    之后基于阈值确定多数类别与少数类别。

特征向量生成的方式与Smote相似,在这一过程中会进行标签分配吗?基于两个原始样本的加权标签总和会被计算出来,并且其权重可通过新生成样本与原有两样本间的距离比例来确定。

SmoGN

在这里插入图片描述

Safe Distance: 典型示例与同类分区中其他示例之间距离的中位值的一半。
SmoteR: 提升数据多样性;
Gaussian Noise: 更为稳健。

H-Smote

在这里插入图片描述

Smote: 生成的数据集与其原始数据集的中心存在显著差距.H-Smote: 基于原始数据集构建的扩展数据集与之间的差异较小.

类间和类内不平衡

类间(between-class imbalance):the scenario characterized by a between-class imbalance, which refers to instances where the distribution of positive class examples differs significantly from that of negative class examples. 类内(within-class imbalance):Within-class imbalance pertains to situations where a single class comprises multiple subclusters, each containing differing numbers of examples.

在这里插入图片描述

已有的算法大多只讨论了类间不平衡,鲜少由讨论类内不平衡的。

MLL

LDL

LDL可以归类于特殊的多元回归问题类型,在该框架下单一标记的定义域被限制在[0,1]范围内。

在分析各类不平衡现象时,请问这些不平衡现象是否存在于LDL数据中?

在应用SmoteR算法时,请问如何针对每个单独的标记进行多数类别与少数类别划分?

对于单个样本而言,在其各个维度上的表现具有一定的约束关系(即各维度描述度总和恒定),因此对于各个独立变量i来说其有效取值区间应限定在[min_i,max_i]范围内。

综合运用包括插值技术、高斯噪声添加以及H-Smote增强策略在内的多种数据增强手段。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~