【文献阅读】SSD: A Unified Framework for Self-Supervised Outlier Detection (ICLR2021)
精选阅读:SSD: 一种统一框架在自监督异常识别中的应用(出自ICLR2021)
文章目录
-
择情阅读:SSD: A Unified Framework for Self-Supervised Outlier Detection, Accepted at ICLR 2021
-
一、Abstract
-
二、Introduction Section
- 核心问题:
- two key innovations:
- The potential extensions of this framework include:
- The primary contributions of this work include:
- The development of a novel self-supervised learning methodology for anomaly detection
- The establishment of a unified framework that integrates multiple state-of-the-art techniques
- Comprehensive evaluation on benchmark datasets demonstrating superior performance
- 核心问题:
-
三、SSD
-
- 1、背景:对比自监督表示学习
- 2、基于SSD的无监督OOD检测
-
- (1)通过对比自监督训练方法实现
- (2)基于条件聚类的检测策略
- (3)选择距离度量时采用马氏距离
-
总结
-
#一、摘要
#二、Introduction(部分语句)
#三、SSD 介绍
一、摘要
(1)目前SOTA 的OOD检测器需要细粒度的标签(例子:白猫、黑猫、花猫)用来做监督训练,而作者提出的只需要分布内的数据即可,不需要细粒度的标签(unlabeled in-distribution data)
(2)使用自监督表示学习,在feature space上用马氏距离
(3)文章还进行了两个扩展,即a、可以从OOD样本中每一类取1-5个样本参与训练。b、训练数据加入细粒度标签
二、Introduction
核心问题:
Is it feasible to develop an efficient out-of-distribution (OOD) data detection mechanism that uses solely unlabeled instances from the training pool?
两个key:
(1)unsupervised学习能够获得良好的feature representations
(2)无需借助类别标签即可建立有效的ID数据的特征模型
(近期基于自我监督的学习机制展现出显著的效果,在下游分类任务中实现了较高的分类准确率)
两个extension:
(1)采用1至5个OOD样本有助于提升该检测器性能。
(2)class labels 可选配加入。最近提出了两种类型的损失:一种是有监督的交叉熵SupCE;另一种是具有可调节参数的自监督学习损失。这些方法无需额外调参。
主要贡献:
SSD for unlabeled data
Extensions of SSD
三、SSD
1、背景:Contrastive self-supervised representation learning
SimCLR (1)两个数据增强 (2)每一个batch用的是NT-Xent损失
2、Unsupervised OOD with SSD
(1)使用对比自监督训练方法
目前SOTA的框架
(2)Cluster-conditioned detection
为了将 training data 的 features 分成m个类别,并将其命名为z_m;由于计算资源消耗较少,则运用k-means clustering method对每个类别分别建立模型;最后针对输入x进行outlier scores的计算。

x是测试data,D是距离
(3)距离度量的选择:马氏距离
马氏距离公式:

其中\mu_{m}和\Sigma_{m}分别代表基于ID训练数据中各个特征维度上的样本平均值与样本方差(实际上应为每类别训练数据对应的特征维度均值与方差)。
总结
由于本人的研究仅针对不含类标签的数据集,并且同时OOD数据也缺失的情况下,则无需对两个延伸模块进行详细描述
