Advertisement

Survey: Deep Learning for Unsupervised Anomaly Localization in Industrial Images: A Survey:

阅读量:

文章信息

一、简述
本文是对工业图像采用深度学习下的无监督异常定位技术以及数据集选取和评价标准选择等进行概述。首先,在现实工业环境中很少见出现异常情况,在这种背景下获取足够的 abnormal 图像数据变得困难。然而,在工业场景中及时发现潜在缺陷至关重要——这正是导致进行 abnormal 检测的根本原因。我们通过系统地分析一系列高质量的 industrial 图像数据集合来使机器能够自主识别出这些不正常的特征模式,并建立了一套完整的判别体系以实现 accurate 判别与 predictive 分析能力。其次 无监督 学习相比 有监督 学习方案,在实际应用中无需过多依赖高质量标注的数据,并且能有效规避因标注错误带来的误差。

1.1 异常检测与异常定位的主要区别
AD:该系统主要实现的是对输入图像的分类功能,在分析后能够明确确定输入图片是属于正常状态还是出现故障状态(左侧部分)。
AL:而该系统则专注于对已知出现故障的情况进行位置标注和区域划分,在处理过程中能够精准识别并标示出图片中出现故障的具体部位(右侧部分)。

在这里插入图片描述

1.2 图像缺陷分类
工业中的异常通常分为两类:纹理缺陷和功能缺陷。
在MVTec AD数据集中,在大多数情况下表现为纹理缺陷,在少数情况下则为功能性问题。
图中第一行呈现了MVTec AD数据集中的典型纹理问题。
第二行则展示了几种功能性问题实例。
例如,在木材表面常见的纹理问题包括瓶口裂纹、榛子状斑点以及木纹划痕。
功能性问题主要存在于MVTec AD中的晶体管类别数据集里,
而摆放位置的不同可能会影响器件性能

在这里插入图片描述

1.3 常用图像检测术语含义
其中许多与异常检测相关的术语中存在诸多概念差异性说明需求。
图像分割技术(image segmentation technology):这一技术着重于从图像中提取特定物体特征以实现目标识别功能。
图像显著性检测方法(image saliency detection method):此类方法主要关注于在图像中优先识别出具有显著视觉特征的区域对象,在此过程中可能会忽略那些在整个图像范围中并不具备显著视觉特异性的异常现象(如功能性异常)。
工业图像表面缺陷检测技术(image surface defect detection technology):在工业应用领域内该概念与传统的无监督像素级缺陷检测方法具有高度相似性即仅通过学习正常数据分布特性来判断未知数据是否符合同一分布模式以实现对新数据的分类判定功能进而判断其是否为同一模式下的正常数据还是异常数据类型。
异常值检测算法(novelty detection algorithm):该算法基于训练数据集中仅包含正常样本的特点通过学习模型构建正常数据分布模型之后用于对未知测试样本进行模式匹配判断若测试样本符合正常数据分布则判定为正常样本否则归类为异常样本类型。

1.4 三大挑战
AL在实际工业场景应用中远没有想象中简单,作者列举了三大问题。
训练样本分布问题 :所有用于无监督AL的训练样本都是无缺陷的。无缺陷样本分布的均衡程度影响异常位置的判断;例如,如果训练数据中缺失了特定的正常样本或区域,则训练好的模型可能会将该正常样本或区域识别为异常。换句话说,目标是使机器的视角尽可能地与人类的经验相兼容。此外,在复杂的工业场景中,正常数据存在被污染或数据噪声的可能性。成像条件的变化,如光照、视角、尺度、阴影、模糊等,会导致训练样本的显著差异,而这些差异不应该被认为是异常。
多规模异常问题 :在真实的工业场景中,一些异常,如裂缝,往往是细微的,占据的面积很小。这些小区域甚至可能在整个高分辨率图像中只占据几个像素。因此,在异常图像中,微小像素反而容易被正常情况淹没。此外,大跨度异常在现实场景中也很常见。因此,通过同时考虑小的、细微的缺陷和具有完整跨度的大缺陷来定位异常是一个挑战。
边界问题 :模型的决策边界应等于理想分布边界。然而,由于像素级监督标签的稀缺性,精确异常轮廓的全面分割是异常定位的另一个挑战。目前,大多数异常定位方法定位精度不足,与地面真实情况差异明显。

二、常用方法
作者归纳了近年来无监督对抗学习的主要研究进展,并列举了每种方法的核心代表概念。
AL模型主要包含以下几大类:一是基于图像重构技术(image reconstruction techniques),二是基于生成模型的方法(generative model-based approaches),三是基于深度特征提取技术(deep feature extraction techniques),四是自监督学习方法(self-supervised learning methods),五是one-class分类技术(one-class classification techniques)。

在这里插入图片描述

然而,在多个类别之间存在某些方法同时涉及多种手段进行融合时,则会形成一种新的分类体系(即第二种分类方式),其重叠区域对应于这些方法的共同领域

在这里插入图片描述

2.1 基于图像重构(Image Reconstruction-based Approach)
这种方法是最早提出的,并且非常直接。我们希望AE自编码器能够将异常图像重组为正常的形态,并在此基础上进行对比分析以获得定位信息。在改进方面,则主要体现在网络架构的设计上以及潜在空间的优化上,并且还对损失函数进行了优化。然而该方法存在一个显著的问题:即很难确保异常区域在重建过程中被准确地还原为正常的形态;与此同时,在处理正常的区域时的效果与输入保持一致的状态下进行比较分析所得出的结果并不能充分反映出异常区域的真实情况

在这里插入图片描述

2.2 基于生成(Generative Model-based Approach)
基于生成模型的主流方法主要包括VAE、GAN以及NF。其中,在VAE中,类似CAM等方法通过求解梯度信息来确定异常位置。而GAN通常通过多对一的生成器与判别器结构来优化图像生成质量。尽管如此,在概率分布评估方面,VAE与GAN均存在不足之处:VAE在重建图像质量上往往表现不佳;而GAN在训练过程中容易出现模式坍缩或后向工程等问题。相对而言,NF在这方面表现更为突出,并且与后续基于特征检测的方法相结合,目前在MVTec AD识别任务中取得了最佳效果。

在这里插入图片描述

GAN:

在这里插入图片描述

NF:

在这里插入图片描述

尽管在部分工业领域中,基于图像重建或生成模型的方法已经取得了初步成效[1]。然而,一些研究者发现,在这些方法中由于缺乏对不同层次(即特征级)区分能力不足的关键信息[2]。因此,在这些场景下这种方法往往会导致不准确的结果出现。针对这一问题提出的解决方案是基于深度特征嵌入的方法[3]。该方案主要包含两个子领域:知识蒸馏与特征建模两大子领域。具体而言就是通过比较目标图像与正常图像的深度嵌入特征来构建最终的像素级异常图[4]。其中,在具体实施过程中多采用以下两种方式:一是从ImageNet等大规模数据库中进行预训练;二是采用自监督学习策略进行优化[5]。值得注意的是NF也是一种结合了深度特征嵌入机制以及生成模型的应用方式[6]。从异常检测的角度来看我们还可以将上述方法进一步划分为两类:一类是基于知识蒸馏的方法;另一类则是基于深度特征求索建模的技术框架[7]。值得注意的是在这个分类下特别是针对特征求索部分又可以划分为多个细分方向例如最近邻搜索(KNN)、自组织映射(SOM)以及高斯分布建模等多种形式[8]。

在这里插入图片描述
在这里插入图片描述

2.4 基于自监督学习(Self-Supervised Learning-based Approach)
自监督学习( Self-Supervised Learning, SSL )是一种从未标注图像中学习视觉特征的方法,并将其应用于相关视觉任务的过程。这种方法涉及两种主动学习(Active Learning, AL)方法:一种用于执行特定任务的代理方法(proxy-based),另一种侧重于网络架构设计的学习策略(contrastive learning)。相比之下,在Proxy-based方法中,则更加注重前向知识的应用;而Contrastive learning则主要关注于网络架构的设计与优化。

在这里插入图片描述

2.5 基于One-Class分类(Approach)

作者在工业领域的图像异常检测问题上提供了广泛使用的数据集,并对其进行了简明扼要的说明。

在这里插入图片描述

3.2 评估标准
在该领域实验研究中,常采用AUROC、RPO和IoU等指标来评估网络模型的表现效果并判断其实用价值。本文旨在系统介绍这三个关键指标的意义与应用方法。
其中,AUROC值则由接收者操作特征曲线(receiver operating characteristic curve)与坐标轴围成区域面积大小决定,其核心意义在于:由于计算范围限定在1×1的正方形内,因此AUROC值必然落在0到1之间范围内,数值越大表示分类器区分能力越强即正确分类阳性样本比阴性样本的能力越强,从而需要设定明确阈值来进行分类判断工作以避免阈值不当导致评估结果失真问题,建议采用阈值无关型综合评价指标以全面反映分类器的整体性能表现

在这里插入图片描述

基于AUROC这一指标可以评估分类器(预测模型)的表现优劣。具体而言:
当AUROC值等于1时,则表示该分类器达到了完美分类的效果。
在大多数实际应用中:

  • 当AUROC值大于0.5小于1时,则说明该分类器的表现优于随机猜测水平;
  • 当AUROC值等于0.5时,则与随机猜测水平相当(类似于抛硬币的结果),此时模型不具备预测能力;
  • 当AUROC值小于0.5时,则说明该分类器的表现反而是比随机猜测的效果差;
    然而需要注意的是,
    即使 AUROC 值小于0.5,
    如果总是采取反向的预测策略,
    其效果反而会优于随机猜测。

PRO:与用于逐像素测量的AUROC不同,在评价PRO曲线时主要关注FPR(假阳性率)在0-30%范围内的性能表现。具体而言,在使用AUC评估 PRO 曲线时,默认方法存在局限性:当FPR较高时,则意味着大量正常区域被误判为缺陷。这种情况下虽然真正样本中的TPn值也会显著增加(即 PRO 值较高),但这并不足以充分反映模型的实际定位精度(即定位准确性的提升)。因此,在本研究中我们采用了以下改进方法:仅考虑 FPR 位于0-30%之间的阈值段,并将对应的AUC指标归一化作为 PRO-Score(即本文所述的方法计算该评分)。此外该评分方法还被应用于异常定位任务中

在这里插入图片描述

IoU指标可将AL视为与监督学习中类似的分割任务。IoU指标作为分割任务的核心指标,在评估算法性能方面具有重要价值。目前仅有少数研究采用该评估方法进行性能量化分析;其计算方式采用预测框(A)与真实框(B)交叠区域除以其并集面积的方式进行描述;具体公式如下所示:

在这里插入图片描述

IoU数值越大则表明A框与B框之间的契合程度更高,从而反映出模型预测的准确性 。相反,当IoU数值较小时则意味着模型预测的效果较为欠佳 。就IoU而言,其优势在于具有尺度不变性;同时其计算结果始终为非负值,并且取值范围限定在0到1之间 。然而,该方法也存在一些不足之处:当两个目标完全不相交时,IoU得分为零;此外,IoU指标无法反映两个目标之间的间距信息;更重要的是,仅依赖IoU作为损失函数可能会导致优化困难 ,因为此时梯度可能趋近于零 ;此外,IoU也无法充分衡量两目标之间的实际契合程度 。如图所示,尽管这三种情况均获得了相同的IoU分数,但显然它们所覆盖的实际区域大小存在显著差异:中间情形仅获得中等水平的效果 ,而两侧情形则未能达到预期效果

FPS:标定网络每秒可以检测(处理)多少帧(张图片),FPS简单来说就是图像刷新频率的衡量指标。具体而言,在目标检测任务中,若假设目标检测网络每处理1帧所需时间为0.02秒,则其对应的FPS值为1/0.02=50帧/秒。

全部评论 (0)

还没有任何评论哟~