Advertisement

论文研读系列——“Diffusion models for missing value imputation in tabular data”

阅读量:

Diffusion models for missing value imputation in tabular data

arxiv [Submitted on 31 Oct 2022, last revised 11 Mar 2023 ]

链接:arXiv:2210.17128

代码:https://github.com/pfnet-research/CSDI_T

摘要

该文介绍了一种名为TabCSDI的新方法。这种技术用于推测表格中缺失信息,在计算机从不完整数据进行学习时面临这一具有高难度的任务。其基础是成功创建图像与声音的技术现已被应用于数据分析表,并旨在高效地管理数字与类别间的关联关系。研究者尝试了以不同方式表示类别与数字,并发现这些表达方式对技术的成功应用产生了显著影响。在实验过程中发现,在对比现有常用的方法后,“TabCSDI”表现出色尤其在线性混合型数据处理方面,并且这种现象普遍存在于现实生活中。研究结果突显了正确选择不同数据类型表现形式的重要性。

1 Introduction(引言)

在现实世界的运用中

如Jarrett等人所言,在缺失值插补方法中主要可分为两类:第一类为迭代方法。其基本原理是基于所有其他可用特征信息来推断每个特征的条件概率分布,在每一次迭代过程中我们都会训练一个条件分布估计器来预测各变量的潜在值,并不断重复这一过程直至达到收敛准则——即当前迭代所得预测结果与上一轮估计值之间的差异已低于预先设定的标准。这种方法已被广泛应用于实际研究中,在这一领域内最具代表性的算法之一即为基于链式方程式的多重插补法(MICE)。第二类则是基于深度生成模型的方法,在这一框架下我们主要通过训练生成模型来补充缺失部分的数据值;在此之前的相关研究工作主要包括:采用去噪自编码器实现的多重插补法(MIDA)、基于变分自编码器处理混合型不完整数据的方法(HIVAE)、加权重要性采样自编码器(MIWAE)以及生成对抗网络辅助下的插补网络(GAIN)。值得注意的是,在目前的研究进展中尽管扩散模型在计算机视觉、时间序列分析、化学等领域展现出显著优势;但在表格数据这一特定场景下缺失值插补问题上仍缺乏有效的扩散模型解决方案

本文旨在利用扩散模型技术针对时间序列数据中缺失值的最新发展进行补充。为此我们开发了一种专门用于处理缺失值的方法称为条件得分基础扩散模型(TabCSDI)。最初设计用于处理时间序列数据该方案无法处理分类变量这对于表格数据来说是必要的。为了弥补这一缺陷为此作者提出了一个变体即TabCSDI专为表格数据设计使其能够处理分类以及数值特征。实验结果表明该模型能够成功训练并收敛在性能上与现有的迭代优化器和生成器相媲美并且展现出较强的竞争力。此外在选择合适的分类嵌入策略时可能会对模型性能产生显著影响

2 Problem formulation(问题阐述)

设输入空间为 X = (R ∪ \{∅\})^d ,其中实数空间用 R 表示,“∅”标记缺失值。在缺失值插补方法中,默认情况下我们给出一个 d 维训练数据集 X_{tr} = \{x_i\}_{i=1}^n ,其中 n 代表数据样本数量。不失一般性地,在这些样本中第 j 个特征由 x_i^j ∈ X 描述,并且每个特征可能包含缺失值、数值型变量或分类变量中的任意一种情况。本文关注的是归纳设置问题,在此框架下我们希望确定一个插补函数 f:X → R^d ,该函数能够将包含缺失值的数据 X 转换为 d 维实数值结果 R^d 。理想情况下,在实际应用中希望 f 能够以合理的方式填充缺失值。

为了度量 f 的性能表现,在给定测试输入数据集X_{te} = \{x_i\}_{i=1}^n以及对应的真实标签Y_{te} = \{y_i\}_{i=1}^n的基础上展开评估。对于每个特征j及其对应的缺失位置x_j^i(其中i ∈ M_j),我们定义\hat{x}_j^i为基于f(x_i)得到的缺失特征估计值。令M_j = \{i | x_j^i = ∅\}表示所有缺失位置索引集合,则其大小为N_{miss}^j = |M_j|个缺失样本的数量。在计算模型f的预测误差时,则根据j的不同属性类型采用不同的评价指标:当j为数值型特征时采用均方根误差(RMSE),而当j为分类型特征时则采用分类误差率(Err)。

RMSE(j) 等于 square root of the fraction over N^{miss} summation from i in M^j of (\hat{x}_i^j - y_i^j)^2, 而 Err(j) 则等于 reciprocal of N^{miss} multiplied by summation from i in M^j of indicator function that \hat{x}_i^j not equal to y_i^j

其中 1_{[·]} 是一个指示函数,如果条件成立则返回 1,否则返回 0。

3 TabCSDI: Conditioned Score-Based Diffusion Models Applied to Tabular Data(TabCSDI: 基于条件得分的扩散模型应用于表格数据)

在此节里,我们主要阐述了CSDI及其改进措施用于处理表格数据,并详细说明了其改进措施用于处理表格数据。旨在介绍一种用于表格数据缺失值插补的扩散模型方法。

3.1 条件得分基础扩散模型(CSDI)

扩散模型涉及两个主要步骤:一个是正前处理(即逐步添加人工生成的噪音),另一个是反前处理(即逐步去除数据中的自然噪音)。在扩散模型的标准训练流程中仅反前处理需要进行参数优化(即进行参数更新),而正前处理则保持不变(即始终按照固定的方式执行)。为了简化说明,在此略去了详细的技术实现。

基于扩散模型的思想,Tashiro等人最近提出了一个名为CSDI的扩散模型,用于时间序列数据的缺失值插补。CSDI的关键思想可以这样解释:不是直接使用扩散模型重建整个输入x,即,无条件扩散模型(见Tashiro等人的附录C),CSDI将输入x分成两部分:观测部分(也就是,条件部分)x^{co}和要预测的未观测部分(也就是,目标部分)x^{ta}。扩散模型的目标是模拟以下分布:

p_θ(x^{ta}_{t−1}|x^{ta}_t , x^{co}_0 ) = N(x^{ta}_{t−1}; µ_θ(x^{ta}_t , t|x^{co}_0 ), σI)​,

在这里插入图片描述

其中 t 被定义为迭代轮次变量,并取值于集合 {1, ..., T} 中;T 作为一个超参数设定。在研究过程中,作者需模拟 µ_θ 参数;该参数仅专注于推断无法观测的数据点。通过对比实验结果发现,在生成质量评估指标上;有条件扩散模型的表现优于无条件模型。

在研究者的研究中, 我们遵循了Tashiro等人提出的公式作为目标函数. 在架构设计中, 我们采用了CSDI提出的框架并对其进行了适度优化. 为了更好地适应表格数据, 我们从CSDI架构中移除了时间变换器层, 并采用了一种基于残差连接的组合方式, 即将变换器编码器与多层感知机结合使用.

3.2 处理分类变量

在原始CSDI方法中,默认假设输入特征仅为数值型变量,在表格数据场景下这一假设并不成立。本节中,请注意作者提出了三种新的技术方案以扩展CSDI功能使其能够处理分类型变量:(1) 独热编码方案、(2) 类比位编码方案以及(3) 特征标记化方法。图1详细展示了各种编码机制的工作原理,在这种情况下分类型变量会被标注为黄色块状区域,并且我们假定该特征共有三种不同的类别值。对于独热编码方案而言,请记住其表示形式为[1, 0, 0]的形式较为简单直观。而类比位编码方案则遵循了Chen等人的建议方案来进行实现。在具体示例中,请注意分类型变量会被占用两列空间,并且通过二进制位表示为[1, 1]的形式更加简洁明了。为了进一步提高区分度,请记住作者将独热编码与类比位编码中的非目标值(即值为零的部分)统一转换为-1形式以便于后续处理操作。而对于特征标记化方法而言,则是将数值型与分类型变量共同映射到一个统一的嵌入空间中以便于后续处理运算。请记住,在这一示例案例中,请注意每个变量都将被映射到一个等长的嵌入向量空间E1, E2, E3 ∈ R^e之中以保证计算的一致性与可操作性。值得注意的是,在这里类比位编码方案相比起传统的独热编码优势在于其占用的空间数量更少然而所生成的嵌入向量却更为复杂一些程度上来说这二者之间存在一种权衡关系即简化空间占用的同时又会增加向量表达式的复杂性程度上来说这也是为什么特征标记化方法最终能够达到更好的综合性能表现的原因所在

然后,在处理过输入的基础上训练好了模型之后,在得到原始输出后,则根据不同的处理方案需要用到各自的独特恢复机制来还原数据信息。具体来说,在独热编码的情形下,则主要通过最大值所在的位置来确定对应的类别标签;而在类比位编码的应用中,则是把每一个单独的输出单元赋予了特定的意义——即如果该单元存在非零值则标记为1(当存在非零值时),否则标记为-1(当无值时)。至于基于傅里叶变换的方法FT而言,则需要从嵌入空间中重建数值型和分类型变量两大部分信息内容:首先针对数值型数据特征,在扩散模型的基础上进行反向传播运算并将结果标准化即可得到最终预测结果;而对于分类型数据特征,则需通过计算TabCSDI算法生成的结果与各分类嵌入向量之间的欧氏距离来进行归一化选择,在所有候选类别中挑选出与当前预测结果最为接近的那个类别作为最终识别结果

4 Experimental results(实验结果)

在当前章节中,作者进行了详细说明,在单一数值型数据集以及混合类型变量的数据集中进行了系统分析,并通过这些实验展示了TabCSDI的有效性

数据集 : 作者采用了七个不同数据集进行研究。这些数据集主要来源于UCI机器学习资源库和Kaggle平台。具体包括人口普查收入(Census)、葡萄酒质量(Wine)、混凝土抗压强度(Concrete)、Libras运动(Libras)以及威斯康星州乳腺癌(Breast)。值得注意的是,在分析过程中发现COVID-19和糖尿病相关数据集中仅包含二元分类变量,并对所有数值型变量进行了归一化处理以提高模型性能

对比手段 : 在该研究者的研究中,研究者将他们所提出的改进方案与一个简单的基准策略进行了对比.该方案对于数值型变量,采用了训练数据计算得出的均值(Mean);而对于分类型变量,则采用众数(Mode).研究者还采用基于线性回归与逻辑回归的MICE算法(MICE (linear)),以及基于随机森林模型实现的一种改进型MICE算法(MissForest).此外,研究者还采用了GAIN算法作为代表性的深度生成模型.值得注意的是,MICE (linear)、MissForest以及GAIN的相关代码实现均由Hyperimpute框架完成.对于TabCSDI系统而言,研究者则基于现有的CSDI框架构建了我们的代码体系

结果 : 首先,在糖尿病、人口普查和COVID-19三个混合变量数据集上,作者展示了他们的研究结果并进行了详细分析。表1对比了不同插补方法与分类变量处理方案的效果表现。其中,在糖尿病和人口普查数据集中应用作者提出的方法(TabCSDI)取得了最佳的均方根误差(RMSE)成绩,并且其性能优于MissForest算法以及三种分类处理方法中的其他两种方案。然而,在人口普查数据集中采用类比位方法时表现出更优的分类精度优势明显高于独热编码策略。其次,在表2中呈现了四个纯数值数据集上的实验结果对比分析中发现,在四个测试数据集中所提出的TabCSDI方法均展现出优异的表现能力

讨论

在这里插入图片描述

5 Conclusions and future work(结论和未来工作)

该研究者开发了一种基于扩散模型的缺失数据填补策略,并将其命名为TabCSDI作为该方法的技术名称。研究表明,在现有主流填补方法中,该技术具有与之竞争的能力。特别地,在处理数值型变量方面表现出色。进一步分析表明,在人口普查数据集中应用特征标记化(FT)显著超越了传统的独热编码以及模拟位编码技术。

对于TabCSDI的未来工作,可以考虑以下几个方向:

推理时间的探讨:评估TabCSDI在实际应用中的运行效率与处理速度。
模型架构的优化:通过试验多种网络结构来提升TabCSDI的性能以及其适应能力。
损失函数的研究:详细分析TabCSDI所采用的损失函数,以便更深入地了解其数学特性以及优化策略。

最后感谢您抽出时间阅读并停留片刻。以上观点均是我本人对原文论文的理解与诠释,在此仅限于个人学习用途。如有任何错误或侵权行为发生,请告知。本人承诺会及时修正或删除相关内容。

祝你天天开心,多笑笑。

全部评论 (0)

还没有任何评论哟~