TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP

阅读量：

在这里插入图片描述

From: AAAI 2024
Paper: https://arxiv.org/abs/2312.12828
Code: https://github.com/linyq2117/TagCLIP

文章目录

问题
方法
- Coarse Classes
- DMAR
实验
- ViT最后一层的分析
- 消融实验
- 多分类任务
- 为分割任务提供伪标签

问题

CLIP被训练用对比损失对齐图像-文本对，目的是将图像与相应的文本描述相匹配，并与其他图像区分开来。由于这种损失而导致的softmax操作造成了不同类别之间的竞争，这不利于多标签设置 。
CLIP被训练为通过使用类标记的唯一全局嵌入来表示整个图像，而不显式地捕获特定区域的局部特征。
多标签分类的结果严重依赖于有区别的局部特征，但CLIP主要关注全局。
分析了CLIP中补丁式空间信息的保存，并提出了一个局部-全局框架来获取图像标签。它包括三个步骤：
- 通过Patch级分类以获得粗分数；
- 双掩蔽注意力细化（DMAR）模块来细化粗分数；
- 类级再识别（CWR）模块，从全局角度修正预测。

方法

Coarse Classes

$s_i = \text{Linear}(x_{\text{dense},i}) * T$ $P_{\text{coarse}}(i, c) = \frac{\exp(s_i^c)}{\sum_{k = 1}^{C} \exp(s_i^k)}$

DMAR

获得的初始patch级分类分数经常存在噪声，阻碍了它们作为类别识别的可靠标准，通过DMAR解决。
通过利用所有L注意层的投票风格方法来选择置信的元素。每个置信位置在至少K层中应有显著的注意值（超过层平均值）
$M_{\text{attn}}(i, j) = 1, \text{ if } \sum_{l = 1}^{L} \prod_{l' = 1}^{l} (A(i, j, l') > \bar{A})(A > K)$ 计算每个类的平均分，从而得到Mcls（去掉低于平均分的）
$\hat{P}_{\text{refined}} = \frac{1}{|\mathcal{V}|} \sum_{\mathcal{V}} M_{\text{attn}} \odot A_l \ast P_{\text{coarse}}$ $P_{\text{refined}}(c) = \frac{1}{|\mathcal{V}|} \sum_{l \in \mathcal{V}} M_{\text{attn}} \odot A_l \odot M_{\text{cls}}(c) \ast P_{\text{coarse}}(c)$

实验

ViT最后一层的分析

cls token在整个Vision transformer中起着相对较小的作用，直到最后一层才被用于全局化（Ghiasi et al. 2022）。因此，它几乎不影响前一层的局部特征
在这里插入图片描述

消融实验

多分类任务

为分割任务提供伪标签

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~

TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP

From:AAAI2024 Paper:https://arxiv.org/abs/2312.12828 Code:https://github.com/linyq2117/TagCLIP 文章目录 ...

《Query2Label: A Simple Transformer Way to Multi-Label Classification》

论文链接：<https://arxiv.53yu.com/pdf/2107.10834.pdf?ref=https://githubhelp.com 代码链接：<https://github.com/...

【KD】2023 AAAI Oral Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer

目录简介一、背景与挑战二、解决思路三、技术贡献四、技术方案 4.1Backbone网络和双流模块 4.2知识蒸馏和特征对齐 4.3标签Embedding的提示学习 4.4损失函数五、算法效...

L2G: A Simple Local-to-Global Knowledge Transfer Framework for WSSS

摘要挖掘精确的类感知注意图，即类激活图，是弱监督语义分割的关键。在本文中，我们提出了L2G，一个用于高质量对象注意力挖掘的简单的在线局部到全局知识转移框架。我们观察到，当用局部补丁替换输入图像时，分...

Global Meets Local: Effective Multi-Label Image Classification via Category-Aware Weak Supervision

GlobalMeetsLocal:EffectiveMultiLabelImageClassificationviaCategoryAwareWeakSupervision,2022 全局满足局部：基...

CNN-RNN: A Unified Framework for Multi-label Image Classification(CVPR 2016)

CNNRNN:AUnifiedFrameworkforMultilabelImageClassification PaperPDF 文章目录 Introduction Innovation Metho...

【GAM】《Global Attention Mechanism：Retain Information to Enhance Channel-Spatial Interactions》

arXiv2021 文章目录 1BackgroundandMotivation 2RelatedWork 3Advantages/Contributions 4Method 5Experiments ...

Multi-view Local Co-occurrence and Global Consistency Learning Improve Mammogram Classification ...

【MICCAI2022】MultiviewLocalCooccurrenceandGlobalConsistencyLearningImproveMammogramClassificationGene...

多标签分类（一) | CNN-RNN: A Unified Framework for Multi-label Image Classification

CNNRNN:一种统一的多标签图像分类框架文章是2017CVPR的，主要用于多标签图像分类摘要虽然深度卷积神经网络CNNs在单标签图像分类方面取得了巨大成功，但需要注意的是，现实世界的图像通常包...

Unable to open kernel device \\.\Global\vmx86

今晚做高性能作业，开了三个虚拟机，结果跑hadoop的时候卡死了，无奈之下只能强制关闭，结果重启的时候发现打不开虚拟机了，一开始要打开电源的时候是报错说 VMwareAuthorizationServ...

是否确定退出登录?

TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP

文章目录

问题

方法

Coarse Classes

DMAR

实验

ViT最后一层的分析

消融实验

多分类任务

为分割任务提供伪标签

全部评论 (0)

相关文章推荐

TagCLIP: A Local-to-Global Framework to Enhance Open-Vocabulary Multi-Label Classification of CLIP

《Query2Label: A Simple Transformer Way to Multi-Label Classification》

【KD】2023 AAAI Oral Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer

L2G: A Simple Local-to-Global Knowledge Transfer Framework for WSSS

Global Meets Local: Effective Multi-Label Image Classification via Category-Aware Weak Supervision

CNN-RNN: A Unified Framework for Multi-label Image Classification(CVPR 2016)

【GAM】《Global Attention Mechanism：Retain Information to Enhance Channel-Spatial Interactions》

Multi-view Local Co-occurrence and Global Consistency Learning Improve Mammogram Classification ...

多标签分类（一) | CNN-RNN: A Unified Framework for Multi-label Image Classification

Unable to open kernel device \\.\Global\vmx86