Advertisement

MCM: Masked Cell Modeling for Anomaly Detection in Tabular Data(论文研读)

阅读量:

Note: 此篇文章是深入阅读论文。 Paper source:点我跳转

Abstract

该系统旨在解决表格数据(即结构化数据)中的异常数据识别问题——常通过单类分类技术(一种只有一个类别或类别的样本集用于训练模型的技术)的具体实现方式,在该方法中通常会将正常样本作为唯一存在的类别进行建模学习,并将未知的异常样本作为待识别的目标对象进行处理。研究者选择该方法的原因是其能够有效利用有限的训练资源来提升模型性能

本文主要工作在于提出了一种改进型遮罩建模方法,并成功识别或提取了训练集中特征之间的内部关联性;这些样本很可能就是异常数据。

贡献1:如何获得多元和多样化的相关性——新遮罩策略(学习产生多个遮罩)

贡献2:通过设计多样性的损失函数来降低不同遮罩间的相似程度(通过引入多样性的损失函数,在某种程度上减少了各遮罩在评估指标下的重叠度)。

第3项贡献围绕各个独立特征的角度及其相互关联程度深入探讨了模型的可解释性机制

1 Introduction

  • 举例说明结构化数据异常检测的应用场景——医疗疾病检测[2021]、金融欺诈检测[2021]、网络入侵检测[2021]【水字数】。(后面一句话,我的理解是获取标记的异常做处理本来就没有意义,因为异常检测的目标就是在一堆数据里找出与大量数据背道而驰的少量数据,这也是训练集中只有正常样本的原因——对应one-class classification)
  • AD 的关键是提取训练数据(正常样本)的特征模式。从定义上讲,就是将那些与正常样本的特征模式存在较大偏差的数据定义为异常[2021]。
  • 自监督学习方法可以通过创建欺诈任务去训练神经网络来学习训练数据中的特征模式。
    举例子,GOAD[2020]用了基于距离的欺诈任务,最小化训练样本到聚类中心的距离。NeuTral AD[2021]和 ICL[2022]只采用基于对比学习的损失函数去建模,:

以上内容遵循所有指定规则

2.1 经典的AD方法——维度诅咒、低精度

  • 基于概率的方法:利用参数或非参数分布来拟合正态数据,然后根据数据出现在该分布中的概率检测异常。(参数化:固定参数的分布,假设数据遵循某个特定的分布,并通过数据来估计这些分布的参数,例如均值和方差;非参数化:直接从数据中估计分布)

    • kernel based density estimator[2014]:非参数化方法,它使用核函数来估计数据的概率密度函数。
    • gaussian mixture models[2009]:参数化方法,假设数据是由多个高斯分布混合而成的。这种方法可以用来捕捉数据中的多个模式,并且可以用于检测那些不属于这些模式的异常点。
    • empirical cumulative distribution[2022]:非参数化方法,直接基于样本数据来构建累积分布函数。这种方法通过比较数据点的经验累积分布与理论分布来检测异常。
  • 基于距离的方法:通过分析测试点与其他实例之间的距离来评价测试点特征。

  • KNN[2000]:度量一个测试点与其最近k个邻居之间的平均距离,并以该平均值作为异常评分标准;数值越大表示越可能是异常数据。

  • LOF[2000]:局部离群因子算法通过对比样本及其近邻区域内的数据密度差异来识别异常;当某样本相对于其近邻区域表现出显著较低的密度时,则被判定为离群数据。

  • 分类相关的方法:仅依赖正常类别数据直接建立决策边界。

  • OCSVM[2001] 是一种通过最大化输入数据与坐标原点之间的距离来生成决策边界的算法。
    该方法旨在找到一个超平面(在多维空间中),使得所有正常数据点尽量远离该超平面,并使超平面与原点之间的间隔最大化。
    这一策略确保位于超平面一侧的数据被判定为正常样本,
    而位于另一侧的数据则被视为潜在异常样本。

  • Tax&Duin[2004] 提出了一种学习包围大部分样本的最小超球面的方法,
    并通过优化过程确定超球面的中心和半径。

2.2 AD中的自监督学习——解决维度诅咒——没TAD

  • 训练分类器(2018/2019):识别给定图像不同几何变换(旋转、缩放、翻转)的应用场景。
  • 随机仿射变换(2020):基于该方法处理表格数据(包含平移、旋转、缩放和剪切等操作)。
  • 对比学习(2020):通过优化正样本之间的相似性与负样本之间的差异性来实现有效的数据表示。
  • 后续改进(2021):在训练阶段引入额外分类器,并结合表示与分类器信息提升预测效果。
  • 马氏距离(2021):提供一种考虑变量间相关性的距离评估工具。
  • 一类分类器(已介绍过)
  • 对比学习的技术扩展(2021):开发可学习变换模型并设计新型确定性对比损失函数以提高性能。
  • 内部对比损失(ICL, 2023):一次关注单个样本内部特征间的关联关系而非不同样本间的比较

2.3 遮罩图像/语言建模——严重依赖于L和I的内在结构

  • BERT模型(2018)与GPT模型(2020):基于Transformer架构的语言表示方法与生成式预训练语言模型;均采用掩膜语言建模(MLM)作为其预训练任务的核心目标。
  • BERT与GPT通过掩膜语言建模(MLM)实现了高效的预训练学习。
  • BEiT则将MLM成功应用于计算机视觉领域,在原始图像中将像素划分为离散token后通过BERT风格的方式进行预训练。
  • 感知损失理论强制要求token具备丰富的感知信息特征。
  • MAGE方法引入了可变遮蔽比率机制以统一图像生成与表示学习的过程。
  • 与其他方法不同的是MAE试图通过预测被遮蔽的像素信息而非离散token来实现更精细的重建过程。
  • SimMIM简化了解码器架构仅使用一个单层预测头即可完成解码过程。
  • CAE则采用了潜在回归器结构以分离出表示学习与预训练任务完成之间的独立作用机制

3 Method

3.1 概览

模型图如下,其实很好理解,一眼就能看明白:

在这里插入图片描述

遵循图示指引进行操作的第一步, Mask Generator G负责生成样本X的处理流程. 即生成多个遮罩矩阵集合M(对所有M中的每个遮罩矩阵计算对应的损失), 通过引入基于Mask Diversity Loss的方法以优化所有M中的遮罩矩阵多样性.

在第二步中, 我们通过计算样本X与每一个遮罩矩阵之间的元素乘积来得到多个遮罩输入; 这些生成的遮罩输入记作\tilde X.

在下一步中,请通过Encoder E和Decoder E对\tilde X进行编码解码以生成\hat X并评估其重构损失

约束:Mask Diversity Loss+Reconstruction Loss

评估:测试样本的重构误差

3.2 遮罩策略

Mask Generator G组成:特征提取器F后接一个sigmoid函数

原理:G从X中提取信息,并生成一个与X具有相同维度的遮罩矩阵M。通过使用sigmoid函数, 矩阵M中的每个元素都被限制在0到1之间. 其理由在于这种方法相比传统二值遮罩(仅取0或1)提供了更为灵活地调节mask强度的能力

该遮罩矩阵M综合考虑了样本与特征两个维度——其中每一行代表了X在各个不同特征上的遮罩情况;而每一列则对应了一个特定特征在不同训练数据集上的遮罩情况。

3.3 遮罩多样性

遮罩建模的相关性无法有效地区分正常数据与其他数据。那就构建多个模型以解决这一问题。通过集成学习方法将多个特征提取器F1、F2、…、FK整合进遮罩生成器中,从而得到一组综合的M。

M_1,M_2,...,M_K=G(X)=sigmoid(F_1(X),F_2(X),...,F_K(X)) \ \ \ \ \ \ (1)

\tilde X_k=X \odot M_k, \ \ \ \ \ \ \ \ \hat X_k=D(E(\tilde X_k)), k=1,2,...,K. \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (2)

问题产生:如何避免遮罩生成模块产出相同的或冗余的遮罩?这一问题至关重要,请问这是否能够影响MCM提取多样性相关联的信息?

解决方法:通过将所有矩阵间的相似度总和作为损失函数的一部分加入,在神经网络的学习过程中施加约束

进一步解读:

在这里插入图片描述

在特定条件下或场景下,在某些遮罩设计中存在与异常样本之间存在一定关联的可能性。通过图2中的示例分析可知,在针对5号和11号的异常样本研究中发现:仅在使用第10号或第13号遮罩的情况下(其重建误差相对较低),表明从特定视角或特征集合来看(即这些关键特征),异常样本与正常样本的分布情况与正常样本具有相似性)。这可能源于该异常样本恰好在某些关键特征上与正常样品具有较高的相关性。然而当综合考虑多种不同的特征相关性时(如前面所述),该现象就难以得到全面解释了:因为此时每个单独的因素都无法充分解释整个现象的变化规律)

3.4 损失表示

\mathcal{L}=\mathcal{L}_{rec}+\lambda \mathcal{L}_{div} \ \ \ \ \ \ \ \ (3)

\mathcal{L}_{reconstruction}表示为\frac{1}{K}乘以从k=1K的矩阵集合\{\hat X_k\}与原始数据矩阵X之间的误差平方和的平均值。这等价于计算从i=1N的所有样本点及其重建向量之间的欧氏距离平方的平均值。具体来说,

\mathcal{L}_{reconstruction} = \frac{1}{NK}\sum_{i=1}^{N}\sum_{k=1}^{K}\|\hat{\mathbf{x}}^{(i)}_k - {\mathbf{x}}^{(i)}\|^2_2

其中下标(4)表示该公式的位置标识符。

\mathcal L_{div} 被定义为 \sum^K_{i=1} 的自然对数乘以缩放因子 scale,并被方程(5)所引用。

参数解读:

公式(3):\mathcal{L}_{rec}——重构损失;\mathcal{L}_{div}——多样性损失;\lambda ——超参数

公式(4):^{(i)}——样本索引;_k——不同遮罩的索引;N——训练数据总数;K——遮罩总数

\mathcal{L}_{rec}=\frac{1}{K} \sum^K_{k=1}||\hat X_k-X||^2_F:对于每一个遮罩 k (总共有K个遮罩),计算生成的数据集\hat X_k与原始未遮罩的数据X之间的差异程度,并对这些差异值进行平方根计算以获得L2范数。接着将所有遮罩所对应的重构损失相加,并除以遮罩总数K以得到平均重构损失值。

该段描述了一个复杂的目标函数及其意义。其中,

\frac{1}{NK}\sum^N_{i=1}\sum^N_{k=1}||\hat{ \mathbf x}^{(i)}_k-{ \mathbf x}^{(i)}||^2_2

这一公式是对目标函数的具体展开式进行定义,在此过程中,

\hat{ \mathbf x}^{(i)}_k

被定义为第 i 个样本在第 k 个遮罩下的重构数据,
{ \mathbf x}^{(i)} 则代表了该样本的真实未被遮挡的数据特征向量。
针对每一个样本 i(总共有 N 个训练样本)以及每一个遮挡层 k
我们都需要计算出其对应的重构误差,并将其平方范数进行累加运算。
这种双层循环求和的操作不仅能够全面覆盖所有可能的组合情况,
还能够有效地避免遗漏任何重要的信息点。
最终,
我们将这个累加得到的结果除以总的组合数目 NK
从而获得一个具有代表性的误差评估指标——平均重建误差,
这在一定程度上也反映了模型在各个遮挡条件下的整体表现水平。

:表示遮罩矩阵M_iM_j之间的内积操作(衡量两个矩阵的相似性)。

e^{/\tau}:调节参数τ[temperature]用于控制相似性度量的敏感程度。较大的τ值会减弱相似性的影响作用而较小的τ值则会加强其影响力。

\mathbb 1 _{i\neq j}:该指示函数在计算相似性时防止遮罩矩阵与其自身内积的影响,并仅考虑不同遮罩矩阵之间的相似性。

\ln:用于将指数函数的结果转化为一个更适合优化处理的形式;计算公式\sum^K_{j=1}(e^{/\tau}\cdot \mathbb 1 _{i\neq j})表示对K个遮罩矩阵中所有与M_i不同的遮罩矩阵间的相似性进行累加

scale:一个缩放因子,在文中定义为scale=1/|Mln1/M|(这里仍需进一步查看代码定义),用于调节多样性损失的数值范围。这里的M表示遮罩矩阵的数量,而\ln表示自然对数。这个缩放因子的作用是为了使多样性损失在数值上与其它损失(如重构损失)保持一致,从而便于在优化过程中实现各损失之间的平衡。简单来说这是一个调节参数参数。

4 Experiments

4.0 实验准备

4.0.1 数据集

20个AD中常用的表格数据集在医疗保健、金融和社会科学等领域均有应用。其中12个数据集来自ODDS[2016]这一权威资源库,另8个则取自ADBench[2022]这一最新基准测试集合。这些数据集的具体信息可在附录部分E中的表18中找到,该表详细列出了各数据集的样本数量、维度特征以及异常值分布情况。

在这里插入图片描述

4.0.2 评估指标

将每个数据集中的正常样本随机均分为两部分。其中一部分作为训练集使用,并从另一半中加入所有异常样本来构建测试集合。

主要基于AUC for the ROC curve(AUC-ROC)以及AUC for the Precision-Recall curve(AUC-PR)来衡量模型性能。

ROC曲线是一种用于展示分类系统性能的重要可视化工具。它通过呈现不同阈值下真阳率(True Positive Rate, TPR)与假阳率(False Positive Rate, FPR)之间的联系,帮助评估分类系统的辨别能力。具体而言,在这种图表中计算出的区域面积(Area Under the Curve, AUC)反映了分类器的表现水平。当一个分类系统能够完美地区分正负两类样本时,在这种情况下其AUC-ROC指标能够达到最大的理论值1.0;而在实际应用中由于数据分布不均等情况的影响,在大多数场景下这一指标的实际取值范围大致在0.5到1.0之间。这一指标被广泛应用于各种领域中的分类模型评估工作当中,并且特别适合于处理类别不平衡问题的情况。相比之下,在类别不平衡的情况下尤其是异常检测任务中,AUC-PR指标往往能提供更为可靠的评估结果因为它更加关注少数类样本的表现情况

4.0.3 具体细节

Mask Generator G组成:一组MLP后接sigmoid

E/D:对称,三层MLP后接LeakyReLU

超参数不敏感——多个数据集共用超参数

epochs:200

batch size:512

遮罩矩阵数量:15

\tau:0.1

隐藏层特征数:256

ED中间的低维度特征数:128

学习率和权重\lambda被视为两个参数;这两个参数主要根据不同的数据集进行调整。其中权重λ的作用是平衡两项损失。

Adam optimizer:以指数衰减学习率控制器为界。

4.0.4 基线模型

包括IForest、LOF、OCSVM、ECOD和DeepSVDD在内的五种方法的实现均源自pyod[2019]库——该库整合了多种异常检测算法并提供了统一的接口。另外四种方法则基于其官方开源代码实现。所有方法采用了统一的数据集划分方式以及预处理流程以确保可比性,并参考了最新文献[2021][2022]中的研究进展。每个实验独立运行三次以获取稳定的统计结果,并报告平均表现指标。

[1]:Yue Zhao, Zain Nasrullah, and Zheng Li. Pyod: A python toolbox for scalable outlier detection. arXiv preprint arXiv:1901.01588, 2019.

Chen et al.提出了一种基于神经变换学习的深度异常检测技术研究

[3]: Tamir Shenkar and Lior Wolf. Abnormality identification in tabular datasets using internal contrastive learning. In the proceedings of the International Conference on Learning Representations (ICLR), 2022.

4.1 主要结果

在这里插入图片描述

表1中展示了AUC-PR结果,AUC-ROC性能可以在附录A的表5中找到

MCM在涉及20个不同数据集的情况下,在其中13个数据集中展现出色表现。即便是在仅低于最佳水平的其他方法所涉及的数据集中,MCM的表现差异仍处于可接受范围内

4.2 消融分析

进行了对样本集合的AUC-ROC与AUC-PR值的测算,并在表2中展示了平均表现。每个样本集合的具体数据可在附录B中的表6和表7中找到。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  • Task A:vanilla AE,在无需任何遮罩的情况下运行。
  • Task B:采用了随机采样的遮罩矩阵替代可学习的版本,在此情况下实验结果亦然。
  • Task C:放弃集成学习策略,则将遮罩数目设定为单一。
  • Task D:采用集成学习方法,并避免计算\mathcal L_{div}
  • Task E:本文提出的方法。

4.3 不同的遮罩策略

开创性:首先,在表格AD领域中首次成功将MIM/MLM技术进行扩展,并对不同的遮罩策略进行了深入探讨。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
  • Matrix Masking:随机生成一个矩阵M,并通过元素乘积操作使用M对输入进行屏蔽处理。
  • Zero Masking:以概率p_m随机选择一些特征进行采样,并将这些特征值替换为零。
  • Transformation Masking:从正态分布中随机抽取矩阵W,并通过输入样本与W进行矩阵乘法运算[2020]。
  • Shuffle Masking:以概率p_m随机选择部分特征进行采样,并从这些特征的经验边际分布中抽取样本用于遮蔽操作[2022]。
  • Gumbel Masking:在遮罩生成器G中采用Gumbel-Softmax替代sigmoid函数来生成可学习的二进制掩码[2017]。

将Zero和Shuffle模型中的p_m参数设定为0.4。其中,在Zero和Shuffle模型中,随机性体现在选择需要遮蔽的特征方面;而Matrix变换层和Transformation层中的随机性则是通过生成矩阵M和变换矩阵W的方式引入的。

这些随机策略使表格AD很容易产生无意义的遮罩。

本文遮罩是由数据生成的,并未引入随机因素,能够识别正常数据中的特征间的关联性。本文的遮罩策略将在第3.2节中进行详细讨论。

4.4 不同类型的异常

异常类型的范围极为广泛;然而基于一篇文献综述发现(文献[2022]),我们可以将其主要分为四类,并阐述了构建这些异常类型的方法

  • Local 异常
    • Global 异常
    • 依赖关系中的异常
    • 聚类中的异常

研究者依照既定方案实施实验

  • Local anomalies:采用经典的GMM程序(Milligan和Steinbuss&Béohm等),生成正常样本集。接着通过缩放协方差矩阵的方法实现局部异常特征的创建。这里使用了α=5作为缩放因子。
  • Global anomalies:在数据范围内均匀分布的基础上构建全局异常检测模型,在设定α=1.1的情况下确保异常点偏离标准范围的程度能够被有效捕捉到。
  • Dependency anomalies:通过Vine Copula方法建模数据间的依赖关系,在去除这些建模后的依赖性后构建独立性检验框架(Martinez-Guela和Mata-Machuca的研究支持了这一方法)。具体来说,在特征空间中应用核密度估计技术来推断正常样本的概率密度函数,并利用此结果生成独立性的概率分布模型。
  • Clustered anomalies:将正常数据集的均值向量放大α倍(此处α=5),从而得到一个具有较大偏离度的新样本群组。这种超参数的选择有助于平衡不同类别之间的距离控制问题,在实际应用中能够有效地识别出由不同因素引发的异常模式。
在这里插入图片描述

在依赖关系异常(Dependency anomalies)中,MCM能够通过分析正常数据集来识别其内部关联度,并能够有效地预测潜在的异常情况。

4.5 进一步分析

4.5.1 Robustness to Anomaly Contamination

为了评估MCM针对异常污染的鲁棒性, 作者在异常污染率为0%、1%、3%和5%的情况下进行了多组实验研究。实验结果表明, 随着污染率的逐渐升高, 所有方法都呈现出不同程度的性能下降趋势。然而, 相较于基于SSA的传统降噪算法和其他两种先进的深度学习降噪方法,MCM展现出更为突出的稳定性特征, 并始终维持最佳水平的表现, 这充分证明了其对异常污染具有卓越的抗干扰能力。图4清晰展示了Cardiotocography数据集上的实验结果, 而附录D则提供了其他测试数据集的具体分析结果

在这里插入图片描述

附录D:表16展示了不同维度数据集的训练与推理时间对比结果,在上述实验中生成数据量范围设定为十到一万个维度,并采用每批处理64个样本的方式进行运算;所有实验均在单独的一块Tesla V100 GPU上完成

在这里插入图片描述

(2)在CV领域研究显示:利用light-weight decoder可有效提升MIM性能。此外,在改进MCM方面也有所尝试:采用单层头替代原有的解码器结构(如表17所示)。这一调整对多数数据集产生了明显负面影响:评估指标的平均值显著下降(包括AUC-ROC和AUC-PR两个指标)。造成这一现象的原因在于:对于图像任务而言,在编码器阶段已具备提取高层次语义信息的能力;这种能力使得低层像素重构变得相对容易;而轻量级解码器不会对编码性能产生负面影响;但与之相反的是,在表格数据中:单元格内容往往包含层次丰富的细节信息;这种复杂且细粒度的表格单元格内容则要求具备更强的重建能力以保证解码效果)。因此,在图像处理任务中可接受较低能力的重建模块;但在表格数据处理中则必须采用更为强大的重建机制才能满足需求

(3)Pure Masked Prediction是一种经典方法,在该方法中通常仅考虑 masked 区域的重构误差。在同样的设置下,我们对每个特征的重构误差赋予一个加权值为 1 - m^i_j(其中 m^i_j 是一个介于 0 和 1 之间的数值),该值表示第 i 个样本在第 j 个特征上的遮蔽程度。如表17所示,在这种情况下模型性能的表现也受到了显著影响。

The unmasked portion of the model is responsible for reconstruction tasks, while the masked portion focuses on prediction. In methods like MAE, which are designed for image processing, the reconstruction aspect is relatively straightforward. Adding such a component might not significantly affect performance. However, concentrating solely on the prediction task can substantially enhance the model's capabilities. Nevertheless, when dealing with tabular data, the complexity increases: rows, columns, and individual cells are interconnected, and understanding each cell's semantic content is crucial. Due to these intricate dependencies, improving the reconstruction of unmasked portions remains challenging. Capturing these relationships can play a pivotal role in enhancing the reconstruction of unmasked portions and ultimately boosts the model's performance capabilities.

在这里插入图片描述

4.5.2 The Number of Masking Matrices

图3展示了不同遮罩矩阵数量下MCM的表现情况。起初,在遮罩矩阵数量增加的过程中(即随着其逐步提升),四种标准数据集上的性能均呈现出了明显的提升趋势(即显著改善)。由于更多样化的遮罩矩阵能够提取出更多正常数据的特征相关性(即有助于识别异常),从而为判断异常样本提供了更多的判别依据(即更多的参考标准)。当达到一定数量后(即当其进一步增加带来的边际效益逐渐下降),性能趋于稳定(即不再有显著提升)。在MCM算法中,默认将其设置为15个采样点,并且未对不同标准数据集进行单独优化;对于超参数灵敏度的问题,请参见附录B中的详细讨论

在这里插入图片描述

附录B:消融和参数灵敏度

表6及表7详细列出了消融机制在经过严格筛选的多组数据集上取得的AUC-ROC曲线下的面积以及AUC-PR曲线下的面积表现。

在这里插入图片描述
在这里插入图片描述
  • 表8和表9显示了不同遮罩策略下的AUC-ROC和AUC-PR结果
在这里插入图片描述
在这里插入图片描述
  • 表10 和 表11 分别展示了不同权重系数 \lambda 对 AUC-ROC 和 AUC-PR 指标的影响。
  • 在先前的研究中, 各数据集均进行了 \lambda 的优化设置.
  • 在此处, 作者采用了固定 \lambda 值来进行实验对比.
  • 结果显示当 \lambda = 20 时表现最佳.
  • 与对各数据集单独调节 \lambda 相比, 平均 AUC-PR 指标下降了 0.0231, 仍优于所有基线方法, 这表明作者的方法对于 \lambda 参数不具有敏感性.
在这里插入图片描述
在这里插入图片描述
  • 表12和表13显示了不同批量大小的AUC-ROC和AUC-PR结果。
在这里插入图片描述
在这里插入图片描述

表14与表15分别列出了不同多样性损失设计对应的AUC-ROC值与AUC-PR值计算结果。为了保证实验的一致性,在相同的实验条件下运行并评估模型性能时,请确保权重系数λ保持恒定

在这里插入图片描述
在这里插入图片描述
  • 图7呈现了权重系数λ、epoch数以及batch size在参数敏感性分析中的可视化结果。结果显示第4.5节的结论一致,即模型对于参数的变化并不敏感。
在这里插入图片描述
  • 图8展示了在四个不同异常污染比例的数据集上分别绘制的AUC-ROC曲线以及AUC-PR曲线。与第4.5节所述的其他三种自监督学习方法相比,在多数情况下该模型的表现更为稳定且可靠。
在这里插入图片描述

5 Discussion

探讨MCM在可解释性方面的优势,具体而言,MCM可以从两个维度提供可解释性:一是各特征间的相互关联性,二是单个特征的表现异常情况.在计算每个样本的异常评分时,采用了双重平均的方法,其中第一次平均是基于不同特征求取,第二次则是基于多个遮罩版本进行评估.研究者将同一遮罩版本下不同特标的重构误差均值定义为其贡献度,而针对单一特标的重构误差在多个遮罩版本下的均值则被视作其重要性指标

  • 特征之间的相关性

特征间的相关性可通过 MCM 中的差异遮罩来表示。这表明每个遮罩能够捕捉数据中不同特征之间的一种特定关系。每个遮罩的贡献可通过指明样本偏离正常数据中的某些特征相关性来提供可解释性。通过分析各遮罩的贡献度,则可理解一个样本与正常数据相比,在哪些方面的特征相关性存在偏差。这种分析有助于读者理解为何某个样本会被分类为异常。

作者参考了Shenkar & Wolf (2022)的研究成果,并对其实现了一个个案研究。该研究涉及从四维空间(R4)中随机生成向量,并使用高斯分布进行采样操作。通过分析协方差矩阵发现,在正常数据集中存在高度相关关系的仅限于第1个与第4个特征变量(其间的协方差值为0.85),而其余各变量之间的协方差均为零值。这一结果表明,在正常数据样本中第1个与第4个变量间存在显著的相关性关系;而异常数据样本则是基于具有相似统计特性的分布进行生成的,在这种情况下各个维度之间则不存在显著的相关性关系

进一步分析表明,在这一研究中作者特意选择了其中一个异常样本进行深入研究,并通过计算得出了该特定异常样本对应各个遮罩所占的比例分别为39%、14%、7%以及40%,随后又对其作用范围进行了展示。结果发现前两个和后两个遮罩在这一异常样本中的作用最为显著。这表明该异常样本在第一维和第四维特征上的表现与正常数据存在显著差异

在这里插入图片描述
  • Each individual feature

图6展示了Satimage-2数据集中该特定特征的概率密度估计(KDE)曲线。左右子图分别对比展示了在重建过程前后正常与异常测试样本的概率分布情况。其中所采用的重建数据来源于所有屏蔽版本的平均计算结果。从图中可以看出,在重建前后正常测试样本的概率分布变化较小,并与原始训练样本分布保持高度一致性。然而,在处理异常测试样本时,则会发现其概率分布明显向训练样本的方向发生偏移现象。值得注意的是,在模型训练过程中,默认情况下MCM仅基于正常样本学习其统计特性;此外,在处理异常样本时,默认情况下MCM会倾向于将其重构为与其正常的统计特性相似的状态

普通人的言语通常在常规重组时变化不大;当发生非常规重组时,则会趋向于更接近常规表达;然而,在这种情况下会产生显著的差异。

在这里插入图片描述

基于作者先前的定性分析,在后续定量研究中对该研究数据集进行了深入探索。该研究数据集包含六个关键指标:包括甲状腺激素释放激素(TRH)、甲状腺刺激激素(TSH)、甲状腺应激蛋白(TT4)、甲状腺细胞因子促用物(T4U)、抗甲状腺球蛋白抗体(FTI)以及糖化血红蛋白(HBG)。通过计算了所有异常样本中各单一指标的平均贡献率,并得出了以下具体数值:分别为16%、43%、1%、9%、11%及9%。其中两项指标表现出显著差异:即甲状腺素水平较高的个体其血液中的促甲状腺激素水平反而较低;而血液中抗甲状腺球蛋白抗体水平较高的个体其血液中的甲状腺素水平较高。由此可知这些发现对于诊断甲状腺疾病具有重要意义;因为甲亢病症通常表现为血液中抗甲状腺球蛋白抗体水平升高而促甲状腺激素水平降低这一典型特征表现。进一步验证了各个单一因素的重要性

附录D轻量级解码器和纯遮罩预测,前面给过了

附录G是遮罩的可视化

图 9 呈现了一个正常样本对应的遮罩实例,在正文中已经出现过类似的案例。

在这里插入图片描述

附录H是遮罩退化学习的讨论

首先,在作者看来:当生成的遮掩向量的所有元素均为1时,则无特征被掩盖而发生退化现象。同时,在遮掩向量中各元素数值接近甚至相等的情形下同样存在退化问题。这是因为此时的遮掩对输入的作用类似于均匀缩放而非特异性地掩盖某些特征并进行重建。因此这一现象可视为典型的遮掩退化案例。

研究者对该问题展开了定性与定量实验研究。通过观察图9可以看出,在未采用多样性损失时(见右侧图表),超过一半的遮罩向量均显示出退化现象;而每个遮罩向量在采用多样性损失进行训练时(左侧图表)则完全避免了这一问题,并且各遮罩之间展现出明显的差异性特征。对于定量分析部分,则采用了遮罩向量与均匀分布之间的KL散度作为衡量退化程度的标准

在这里插入图片描述

其中变量u代表均匀分布(represented by uniform distribution),而m则是一个长度为F的掩模向量(mask vector of length F)。从直观上讲,在这种情况下随着遮罩向量中的元素值趋近于相等(becoming more equal)时其与均匀分布之间的KL散度会逐渐减小(decrease),这表明系统正在经历退化现象(degradation)。以Breastw数据集为例在施加和未施加多样性损失的情况下进行训练时模型分别呈现出9.0724e-06和0.8730程度上的退化情况(degree of degradation)。这进一步验证了在引入多样性损失约束条件下MCM能够有效地避免发生遮罩性退化问题(problem)。

全部评论 (0)

还没有任何评论哟~