【论文笔记(8)】PaDiM a Patch Distribution Modeling Framework for Anomaly Detection and Localization
本研究提出了一种基于分布建模的单类学习环境下的异常检测与定位框架(PaDiM)。该框架利用预先训练好的卷积神经网络(CNN)提取图像补丁嵌入向量,并假设这些嵌入来自多元高斯分布以描述正常类特征。通过计算每个补丁位置的马氏距离生成异常分数,实现对图像的异常检测和定位。与现有方法相比,PaDiM无需大量未标注数据即可有效工作,并在多个数据集上展现出更高的性能和更低的时间与空间复杂度。该方法特别适用于工业质量控制等场景,在非对齐数据集上的健壮性也得到了验证。总体而言,PaDiM提供了一种高效、可扩展且易于实施的解决方案,在工业应用中具有广泛前景。
该框架基于Patch Distribution Modeling的方法用于Anomaly Detection and Localization的任务中
Abstract
本研究提出了一种创新性的图像重建方法,在确保图像质量的前提下显著提高了重建效率。
Introduction
医学成像中图像重建是一项至关重要的任务,在这一领域的发展直接关系到诊断的准确性。
Related Work
近年来的研究主要集中在基于重构的方法上,
其中一类关键的方法是基于嵌入相似性评估的策略。
Reconstruction-based methods
Embedding similarity-based methods
Methodology
This approach relies on measuring the similarity between low-dimensional embeddings to guide the reconstruction process.
这种方法依赖于通过低维嵌入之间的相似性来进行评估,
从而实现对原始数据的重构。
基于分块分布的建模框架中包含以下关键步骤:首先进行嵌入提取过程以获取特征表示;随后统计学习正常性分布特征;最后完成推断过程以计算异常值图的计算结果
- Experiments
-
-
Datasets and metrics
-
- Metrics
- Datasets
-
Experimental setups
-
Research outcomes reveal that
* B. Comparison with the state-of-the-art
* * Localization
* Detection
-
C. Abnormality detection within a misaligned dataset
-
D. Scalability advantage
-
The computational expense of the model is proportional to its input dimensionality.
-
The memory requirement scales with the size of the input data.
- Conclusion
Abstract
我们开发了一个创新性的Patch分布建模框架,在单类学习场景中实现了对图像异常样本的高效识别与定位。该模型基于一个经过预先训练的卷积神经网络(CNN)生成图像像素级别的特征表示,并通过多元高斯分布表征正常类别的概率密度函数。为了更精确地定位异常样本的位置信息,该模型不仅整合了不同分辨率级联特征提取的能力,并且充分利用了CNN跨尺度特征间的关联关系。在MVTec AD和STC等公开测试基准上的实验结果表明,在保持较低计算复杂度的前提下显著超越现有最先进的算法性能。针对工业视觉检测这一实际应用背景需求,在传统评估指标的基础上我们提出了新的评估协议设计思路,并在此基础上构建了专门针对非对齐数据集上异常检测算法性能评估体系。
Introduction
在一组同质自然图像中识别出不寻常或意外的模式被视为一种重要的研究方向,在该领域中存在大量相关工作之一即视觉工业质量监控技术。值得注意的是,在生产线上发现这些不寻常现象是非常罕见的事件,因此手动进行这些现象的识别工作不仅费力而且效率低下。为此,通过实现自动化的质量监控系统能够有效减少操作人员的工作注意力消耗并提高操作效率,从而实现持续的质量监管目标。本文着重探讨的是基于计算机视觉技术中的特定应用场景下的异常定位问题,具体而言是针对工业质量监控场景下对象是否存在及其位置信息的关键性问题。在这一研究方向下,传统的图像分类算法通常只能给出待判断区域是否存在某种特征的整体判定结果而无法提供更加精细的信息,而基于像素级或块级的空间感知算法则能够对图像中的每一个像素或者每一个像素块给出相应的评分结果从而生成一张完整的评分矩阵这就是所谓的" anomaly map "。相较于传统的二分类方法基于像素级的空间感知算法不仅能够提供更加精确的结果还能够给出更加具有可解释性的结果这一特性使得其在实际应用中具有更为广泛的应用前景通过我们提出的方法可以在 MVTec 的 Anomaly Detection 数据集中对图像进行有效的异构体识别并生成相应的 anomaly map 如图 1 所示

请参考图1所示的MVTec AD[1]图像数据集。该数据集分为三栏展示不同类别图像:左侧为晶体管、胶囊及木材类型的正常样本;中间一栏为同类别的图片集合,并用黄色区域突出显示潜在缺陷;右侧则展示了我们开发的PaDiM模型输出的结果热图——通过黄色区域标记出可能存在的缺陷区域,在此之外则用蓝色填充表示正常的分布范围。
在异常检测中,二元分类方法旨在区分正常样本与异常样本.然而,由于实际应用中往往缺乏足够的异常样本,并且这些异常实例可能具有复杂的隐含模式,基于完全监督的学习难以直接应用于该问题.因此,研究者通常采用单类学习框架进行建模,即仅利用正常类别数据进行参数估计.在测试阶段,系统将识别出与正常数据存在显著差异的新样本作为潜在的异常候选.
最近研究者提出了若干方案将异常定位与检测任务整合至一种统一的学习框架中[2]-[5]。然而这些方法要么依赖于深度学习模型的训练过程[3][6]这可能带来一定的计算负担这些方案在测试阶段利用来自整个训练数据集的K-NN算法进行识别操作当训练数据量显著增加时为了维持同样高的识别准确率所需处理计算开销会变得更为挑战性此外在大规模数据环境下实现高效的实时处理能力仍面临诸多技术难题
为解决这一问题,本系统开发了一种新型的异常检测与定位方案,命名为PaDiM算法,用于基于Patch的分布建模.该系统采用深度学习技术,通过预训练优化后的卷积神经网络(CNN)实现特征向量提取.其核心创新点体现在以下两个方面:
- 每一个patch的位置点都通过多维高斯模型来进行描述;
2.PaDiM分析了预先训练的CNN各层次间的相互关系
采用这一创新且高效的策略(...),PaDiM系统在MVTec AD[1]以及上海科技园区(STC)[8]等数据集上的表现均超越了现有最先进的异常定位与检测方案。此外,在实际应用中(而非理论测试环境中),该系统的计算复杂度显著降低,并不受训练数据规模对实时性能的影响限制。为了进一步验证系统的实际适用性(而非仅在理想条件下),我们扩展了评估协议的内容
Related Work
异常检测和定位方法可分为基于重建的方法和基于嵌入相似度的方法
Reconstruction-based methods
基于重构的方法在异常检测与定位领域得到了广泛应用。通过训练包括自动编码器[1]、[9]-[11]、变分自动编码器[3]、[12]-[14]以及生成对抗网络[15]-[17]等神经网络架构模型来构建正常的训练图像重建体系。这种基于重构的方法能够有效识别异常图像特征,并将其准确地区分出来。在图像层面最直接的方式是将重建误差作为异常评分标准引用文献[10]。然而从潜在空间的角度出发或者通过中间激活特征引用文献[16]、[18]等方法能够更精确地识别异常样本。对于实现异常定位任务可以通过分析像素级重构误差来确定异常发生位置引用文献[1]或采用结构相似度指标引用文献[9]等方法进行评估。此外还可以利用潜在空间生成的视觉注意力图来辅助识别异常区域引用文献3、14等研究工作进行验证尽管基于重建的方法具有直观易懂且便于解释的特点但其局限性在于有时会因过高的重建精度而影响对某些复杂异常样本的检测效果
Embedding similarity-based methods
基于相似度的嵌入模型借助深度神经网络提取图像的关键特征向量,并将其应用于异常检测任务[6]以及图像异常定位问题[22-24]。尽管这些方法在实际应用中展现出良好的性能表现[7]、[8]、[9]等,在学术研究领域仍面临关键挑战:缺乏有效的解释机制以揭示系统判定结果背后的决策依据。具体而言,在这种情况下所计算出的异常评分指标值是测试样本嵌入空间与训练正态数据集表示之间的距离测度值。该距离值可通过以下三种方式之一进行计算:第一种方式是以包含所有测试样本法向特征的空间中nsphere中心作为基准点;第二种方式采用高斯分布参数来表征法向区域;第三种方式则构建了包含多个法向嵌入空间集合的整体基准库。其中表现最优的是SPADE算法,在该指标评估体系下实现了最优定位效果。然而,在实际部署过程中该方法面临显著的技术限制:在常规测试集上运行K-NN分类器会导致推理复杂度呈线性增长(随着训练数据规模增大),这将严重影响其在工业界的实际应用价值
Patch Distribution Modeling
Embedding extraction
预先训练的CNN能生成用于异常检测的关键特征[24]。基于此特性,在PaDiM框架中提取patch嵌入向量时主要采用单个预先训练好的CNN模型以简化计算流程。这一过程与SPADE[5]机制存在相似之处:如图2所示,在模型训练阶段,系统将每个patch区域与其在预训练CNN中的对应激活区域进行关联处理。随后将来自不同层级的激活向量进行融合在一起形成多尺度信息嵌入向量从而实现对细节级别的上下文关系编码由于预训练CNN输出的空间分辨率较低导致许多相邻像素具有相同的嵌入值因此需要将原始图像划分为不重叠的小块并构建一个由这些小块构成的网格结构最后将该网格结构中的每个单元格位置(i,j)与之前计算得到的具体嵌入向量xij建立对应关系
在生成的patch嵌入向量中可能存在冗余的信息。因此我们对减小其大小的可能性进行了实验研究(章节V-A)。值得注意的是,在随机选取若干维度的效果显著优于经典的主成分分析(PCA)算法[30]的情况下进行分析。这种方法显著降低了模型的复杂度的同时维持了最先进的性能水平,并通过利用测试图像中的patch嵌入向量,并结合后续章节中介绍的标准正常类别参数进行计算和比较以实现最终的目标
Learning of the normality
为了获取位置(i, j)处的正常图像特征,在实验过程中我们从N幅正常训练图像中提取了位置(i, j)处的所有patch嵌入向量集合X_ij={x_k_ij | k∈[1,N]}(如图2所示)。在此基础上对提取的所有patch嵌入向量进行综合分析后发现其符合基于多元高斯分布N(µ_ij, Σ_ij)的概率密度函数模型。其中µ_ij为样本均值矩阵,Σ_ij为样本协方差矩阵估计值。


如图2所示,在最大尺寸的CNN特征图中位置(i,j)所对应的每个图像块上,PaDiM通过从包含N个训练嵌入向量Xij= {xk ij | k=1到N}的集合中学习高斯分布参数(µ_ij, Σ_ij)。这些嵌入向量分别来自N个独立的训练样本以及三个不同预定义的卷积神经网络(CNN)层的计算结果。
其中正则化项 εI通过使得样本协方差矩阵∑ij达到满秩状态并具有非零行列式来实现可逆性。最后,高斯参数矩阵被用来将每个可能的patch位置与如图2所示地多元高斯分布相关联以实现关联关系。
我们的Patch融合了来自不同语义层次的信息。每一个估计的多元高斯分布N(µij, Σij)也被用来捕捉不同层次的信息,并且Σij反映了层与层之间的相关性。通过实验验证(V -A节),建立预训练CNN在不同语义级别之间的关系模型有助于提升异常定位性能。
Inference : computation of the anomaly map
基于文献[23]和[26]的研究成果,在本研究中我们采用了马氏距离这一指标。为了对测试图像中位置(i, j)处的patch区域赋予异常评分(即异常分数),我们引入了该指标。其中该距离可被理解为嵌入x_ij的空间点与学习到的经验分布之间的差异度量。其中M(x_ij)的具体计算公式如下所示:

因此,可以计算出构成异常图的马氏距离矩阵:

最终整幅图像的异常由异常地图M的最大值决定。最后,在测试过程中,我们的方法避免了基于K-NN的方法[4]-[6]、[25]所面临的不可伸缩性问题。这是因为我们在计算每个Patch的异常分数时无需进行大量距离计算和排序操作。
Experiments
Datasets and metrics
Metrics
为了用于评估定位性能我们计算出两个独立于阈值选择的关键指标。基于受试者工作特征曲线(AUROC)的面积其中正确的阳性率即为所有被正确分类为异常像素的比例。该指标倾向于对较大的异常进行检测同时采用每个区域的重叠分数(PRO-score)[2]它通过绘制每个连通组件中正确分类像素的比例随假阳性率变化的曲线来衡量这些曲线定义域为假阳性率从0到0.3的变化范围高分表明该方法能够有效地定位大小不一的异常
Datasets
基于MVTec AD[1]这一平台,我们对我们的模型进行了性能测试.该模型专为单类学习场景设计,在工业质量控制领域用于评估异常定位算法的效果.其涵盖的类别共有15种,在训练数据集中共有约240张图片.这些原始图片的分辨率分布在700x700至1024x1024之间.每个样本包含一个主体(约有19个)以及五个纹理类型.所有主体在数据集中采用了统一的位置排列方式,如图所示.为了使模型能够更好地适应真实的质量控制场景,我们创建了一个修改版本RdMVTec AD,通过应用随机旋转(-10°至+1°)和平移变换(从256x256至224x224)来增强数据集的多样性.这种修改版本能够更好地模拟真实场景中的异常情况,其中感兴趣的对象通常不在图像的中心位置进行对齐处理.
在进一步评估阶段中,在上海理工大学(STC)的数据集[8]上进行了PaDiM算法的测试工作。该数据集模拟了一种基于固定摄像头的视频监控场景,并包含丰富的训练样本和测试样本数量。其中包含了274,515个训练帧和42,883个测试帧,并被划分为13个不同的应用场景。所有原始图像均具有相同的分辨率(856x480),其中正常运行下的训练视频构成了主要样本库,在此基础上设计出能够捕捉到各种异常情况的测试视频序列。
Experimental setups
采用不同类型的主干进行PaDiM算法的训练工作,在本研究中我们主要采用了以下几种主流模型:包括ResNet18(R18)[27]、Wide ResNet-50-2(WR50)[28]以及EfficientNet-B5[29]等网络结构,并均基于ImageNet[32]进行了预训练学习过程。类似文献[5]中所描述的,在使用基于ResNet架构作为主干时,在特征提取阶段我们从前三层提取Patch嵌入向量以融合不同语义层次的信息,并通过保持较高分辨率来确保定位任务的有效性表现。在此基础上,在方法实现过程中采用了随机降维技术(如第III-A节和V-A节所述),具体而言就是从第7层(第2级别)、第20层(第4级别)以及第26层(第5级别)提取Patch嵌入向量数据集并对其进行降维处理。此外,在命名方式上明确指出了所使用的主干架构及其降维策略(如有),例如PaDiM-R18-RD100表示使用带有ResNet18主干并结合随机选择维度数量为100的技术实现的一种特定变体版本;而默认情况下我们在目标函数优化过程中采用了ε=0.01的调节参数设置值
基于Wide ResNet-50-2(WR/−/−/−)−1/−/−/[1]/(1)/([1])/([1])/([1]))作为主干部分
我们还构建了我们自己的VAE作为基于重建的基础线性模型,并采用了ResNet18作为编码器架构,在潜变量维度上采用了8×8的空间分辨率配置以实现更好的重建效果。在每个MVTec AD类别的训练过程中,我们都进行了以下数据增强操作:首先对图像进行随机旋转(-2°至+2°),随后将其缩放到292×292像素范围;接着进行随机裁剪至282×282像素;最后实施中心裁剪以获得最终的统一尺寸(大小为256×256像素)。整个训练过程均采用ADAM优化器[12]进行执行,在总计运行100个周期后完成,并设置初始学习率为1e-4、批量大小为32张图像。此外,在异常检测任务中所用到的异常样本定位指标与基于重建任务的设计方案相一致
Results
A.Ablative studies
在研究过程中, 我们考察了PaDiM中各语义层间建模相关性的影响, 并深入分析降维技术的可行性.
Inter-layer correlation
在先前的研究中[26,23],高斯建模与马氏距离相结合的方法已成功应用于敌意攻击检测及图像级异常识别。相比之下,在我们的研究中采用的PaDiM方法显著区别于现有技术。具体而言,在表1(PaDiM-R18)中展示了仅基于单一层或三层输出融合的结果(第1层、第2层或第3层)以及将这三者相加以形成考虑前三层但不涉及它们之间相关性的集成策略(第1+2+3层)。值得注意的是,在ResNet 18主干框架下测试发现[47]:第三层表现最优是因为它承载了更高层次的语义信息,并能更好地反映正常状态特征。然而,在此基础之上进一步分析发现:第三层较第二层略逊一筹的原因在于其分辨率较低这一特性导致了一定性能损失。正如表I所展示的那样,在综合考虑不同层次信息的过程中存在权衡问题:单一层次融合可能无法充分捕捉多层面特征而两两之间又可能存在冗余风险。因此我们提出了一种新的模型架构——PaDiMR 18——该模型通过引入语义层次间的相关性建模来解决这一矛盾问题。实验结果表明:相较于仅融合三层输出(第1+2+3层),该模型在AUROC指标上提升了约1.1个百分点(百分比),在PRO-SCORE评估体系下则获得了大约1.8%的提升幅度

表格1探究了基于不同语义层的CNN在异常定位任务中的性能表现。该研究的结果在测试数据集MVTECAD上以元组形式呈现,具体包括AUROC%和PRO-SCORE%两个指标。
Dimensionality reduction
我们使用PaDiM - R18模型从每个448维的patch嵌入向量集合中估计多元高斯分布...通过减少嵌入向量的空间维度来降低模型的计算复杂度和存储需求...在本研究中...我们将主要关注以下两个降维策略:其一为主成分分析(PCA)算法的应用...其二是基于随机特征子集的选择策略...在此设置下...我们将构建十个独立的模型实例,并对它们进行性能评估;值得注意的是,在多次运行实验时(使用不同随机种子),所得结果的一致性表现出良好的稳定性

采用主成分分析(PCA)或随机特征选择(RD)对448维数据降到100和200维进行异常定位性能探究。研究结果在MVTECAD平台展示为(AUROC%,PRO-SCORE%)的形式。
根据表2的数据可以看出,在处理相同维度数量时,
随机降维(RD)方法在其AUROC指标值上普遍高于主成分分析(PCA)约1.3%,
而在PRO-Score评估中则高出约1.2%。
这一现象可以从PCA方法的选择机制进行解释,
值得注意的是这些被选中的维度往往无法有效区分正常类别与异常类别[23]。
通过查看表2的数据可以看出,将嵌入向量的维度随机缩减至100维对异常检测性能的影响微乎其微。具体而言,在AUROC指标上,结果仅下降了0.4个百分点;而在ProScore评估中,则下降了0.3个百分点。这一降维策略不仅简化了模型结构还能有效提升运行效率。
B. Comparison with the state-of-the-art
Localization
表3中展示了AUROC指标以及MVTec AD平台上的异常定位评估结果。为了实现公平比较的目的,在SPADE[5]研究中被采用作基础架构。考虑到其他基准模型使用的主干相对较小,在实验设置中我们进一步采用ResNet18(R18)作为基准模型。在实验设置中,我们将PaDiM生成器的嵌入维度分别缩减至550和100。

本研究中开发的padm模型与现有的MVTEC AD异常定位系统进行比较。结果显示该方法采用元组形式展示评估指标(AUROC%, PRO-SCORE%)。
值得注意的是,在所有类别中均展现了显著的优势,PaDiM-WR50-Rd550所展现的平均表现尤为突出。与此同时,该轻量化版本不仅具备优秀的性能,在MVTec AD级别的AUROC指标上也较优性能表现出了明显优势——高出至少0.2个百分点。深入分析发现,在对象类别的检测任务中两者的差异并不显著——因为PaDiM-WR50-Rd550在AUROC指标上仅领先Spade[5]约0.2个百分点——然而,在纹理类别的检测任务中却表现出完全不同的效果:PaDiM-WR50-Rd550分别在PRO-SCORE和AUROC两项指标上较第二名Spade[5]实现了4.8和4个百分点的绝对优势。值得注意的是,在正常类别的检测任务中这一模型采用了显式的概率建模策略与其竞争对手Spade[5]和Patch-SVDD[4]不同——这种差异源于该模型对纹理图像具有极强的表现力——即使它们不像标准的对象图像那样经过精确对齐和居中处理,在训练数据集中依然展现出高度相似性特征的能力得以有效捕捉并加以利用。
此外,在STC数据集中进行评估后, 我们的模型表现得到了进一步验证。我们将其与其他不含时间信息的先进异常检测模型(CAVGA-RU[3]和SPADE[5])进行对比分析, 如表4所示, 使用PA DiM R18 RD100实现了2.1p.p的最佳AUROC值(Area Under Receiver Operating Characteristic Curve)。值得注意的是, 在该数据集中行人位置呈现高度不稳定性, 参见第五-C节的结果分析部分, 但即便如此, 我们的算法仍展现出良好的适应性

表4.我们的PADIM模型与最先进的AUROC% STC异常定位的比较。
Detection
通过提取模型发布时的异常图的最大特征值(参见第III-C节),我们系统性地评估了整个图像集的异常程度,并在此基础上实现了图像级别的异常检测。基于SPADE框架中采用的宽ResNet-50-2(WR50)[28]和EfficientNet-B5[29]架构对PaDiM算法进行了性能测试。表5的数据表明,在AUROC指标上(Area Under Receiver Operating Characteristic Curve),我们的PaDiM-WR50-Rd550显著优于除MahalanobisAD[23]之外的所有其他方法;其中表现最为突出的是EfficientNet-B4作为主干网络结构。值得注意的是,在与第二位性能最佳的异常检测算法MahalanobisAD形成对比的同时,我们的模型不仅在整体检测效率上有显著提升,在具体图像区域的识别精度方面也更为精准。

表5.在MVTEC AD上使用AUROC%进行异常检测(图像级别)。
C.Anomaly localization on a non-aligned dataset
为了验证异常定位方法的鲁棒性,在第四-A节所述的MVTec AD修改版本RD-MVTec AD上进行PaDiM及其SPADE[5]、VAE性能验证。本实验的结果表明详细信息可参考表6。每个测试配置下,在MVTec AD上通过生成5个独立的数据集实现了随机种子初始化,并对这些数据集进行了评估与比较。经分析得出这些数据集表现出良好的一致性。在PRO-SCORE和AUROC指标下均表现最佳,并且相较于普通MVTec AD上的性能表现更为突出(参见表3)。具体而言,在PRO-SCORE方面PaDiM-WR50-RD550的表现优势最为明显(提升幅度达12.7%),而在AUROC指标上则提升了8.9个百分点(较示例对比)。此外,在测试过程中发现SPADE[5]和VAE的表现相较于PaDiM-WR50-RD550有所下降(分别下降幅度达12.2%和8.8%)。基于以上观察结果可以得出结论:我们的方法在未对齐图像识别方面展现出显著的优势与可靠性

表6. 非对齐RD-MVTEC AD异常定位结果结果以元组形式显示(AUROC%, PRO-SCORE%)
D.Scalability gain
Time complexity
在PaDiM算法中,其训练时间复杂度与数据集规模呈线性比例关系。其中高斯参数的估计基于整个训练数据集。相比之下,在需要进行深度神经网络模型训练的情况下,则无需进行深度学习相关的参数优化过程。值得注意的是,在采用串行计算策略时,在CPU(如Intel CPU 6154 3 GHz 72)上实现对PaDiM-WR50-RD550模型的培训时序,在标准测试场景(如MVTec AD类)上的平均耗时约为150秒,在视频流处理场景(如STC视频)上的平均耗时则达到1,5分钟(即1,5×6秒)。为了进一步提升这一过程的速度效率,在前向传播及协方差矩阵估计阶段可利用GPU硬件资源实现加速效果显著提升的效果。与此形成鲜明对比的是根据第IV-B节所述的方法,在MVTec AD上对每个类别培训1,ooo个图像所需的VAE部署仍需配备一台NVIDIA P5ooo系列显卡;而Spade[5]方法则完全避免了这一需求由于其不具备可学习参数特性而无需执行任何形式的学习过程;然而在完成所有嵌入向量预处理工作之前仍需对这些预先计算好的向量进行存储操作;这些预存的数据将作为K-NN分类器的工作输入层;因此从推理速度角度来看Spade方法表现出了显著劣势如表7所示

表7 CPU为INTEL I7-4710HQ @ 2.50GHZ的MVTEC AD上异常定位的平均推断时间(秒)。
在表7中,我们基于Intel i7-4710HQ CPU@2.50 GHz主流处理器进行模型推理时间测试,采用了串行实现策略。对于MVTec AD平台,由于神经网络搜索计算开销较高,SPADE算法运行时长约为采用等效主干架构的我们PaDiM模型运行时间的七倍。相比之下,我们的VAE架构表现接近于重建类模型,呈现出最优性能特征,但相对而言较为简洁易懂的是PaDiM-R18-RD100配置下的推理速度表现依然维持在同一数量级水平。从复杂度相近的角度来看,尽管如此但与PAVi方法相比PADiM仍展现出显著的优势(如本章第五节所述)
Memory complexity
不同于Spade[5]和Patch SVDD[4],本模型的空间复杂度不受训练数据集大小的影响,并主要取决于图像分辨率。相比之下,在内存存储方面仅需保存与每个切片相关联的预训练CNN及其对应的高斯参数。如表8所示,在使用浮点数32位编码的情况下,默认列出了SPADE、VAE实现以及PaDiM在内存占用方面的表现。值得注意的是,在采用等效主干架构时,SPADE在MVTec AD上的内存消耗低于PaDiM。然而,在像STC这样规模更大的数据集上应用SPADE时,其内存消耗将变得不可管理。相比之下,在STC上运行的PaDiM-WR50-Rd550所需内存减少了约70%(七分之一)。值得注意的是,在从MVTec AD扩展至STC的过程中(如第IV-B节所述),空间复杂度的变化主要归因于后者所处理的数据集具有更高的输入分辨率。
值得注意的是,在选择主干网络和嵌入维度之间权衡推理时间和资源限制的能力是本框架的一个显著优势。

表8.在MVTEC AD和STC数据集上训练的异常定位方法的GB内存需求。
Conclusion
我们开发了一个基于分布建模的单类学习环境下的异常检测与定位框架PaDiM。该框架在两个公开数据集上显著地在最佳性能上达到了最佳水平。进一步地,在扩展协议以支持非对齐数据方面取得了初步成功。实验结果表明,在这些更具挑战性的数据集上,该框架表现出了很强的鲁棒性。该框架具有较低的内存和计算开销,并且易于部署,在多个应用场景中表现出色。
