CV-MLLM经典论文解读| Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs
论文标题:
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs
PINK:揭示多模态大型语言模型的参照理解能力
论文链接:
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs论文下载
论文作者:
Shiyu Xuan, Qingpei Guo, Ming Yang, Shiliang Zhang
内容简介:
这篇论文提出了一个新的框架,旨在增强多模态大型语言模型(MLLMs)在细粒度图像理解任务中的能力。通过利用现有数据集中的注释以低成本构建指令调整数据集,并引入自洽引导方法将现有的密集对象注释扩展为高质量的指代表达-边界框对,从而生成包含一系列基本能力的高质量指令数据。此外,论文还探讨了在指令调整过程中调整视觉编码器的必要性,以缩小完整图像感知和细粒度图像感知之间的差距。实验结果表明,该方法在多个数据集上取得了优越的性能。

关键点:
1.问题陈述与动机:
MLLMs在多模态任务中展现出了卓越的能力,但在细粒度图像理解任务中的表现仍然有限。
2.Pink框架的提出:
为了解决上述问题,论文提出了Pink框架,通过构造指令调整数据集和调整视觉编码器来增强MLLMs的细粒度图像理解能力。

3.数据集构建方法:
- 利用现有数据集的注释,设计了多种指代理解(RC)任务,如视觉关系推理和视觉空间推理,以扩展到更广泛的基本能力。
- 引入自洽引导方法,将密集对象注释扩展为指代表达-边界框对,以低成本生成更多高质量的指令调整数据。

4.视觉编码器的调整:
论文提出在指令调整过程中对视觉编码器进行调整,通过引入可调整组件(如Adapters和LoRA)来适应视觉编码器,避免了由于视觉指令数据集规模有限而导致的语义损失。
5.实验结果:
Pink模型在多个数据集上取得了显著的性能提升,例如在GQA数据集上比Qwen-VL模型提高了5.2%的准确率,在RefCOCO验证集上比Kosmos-2模型高出24.7%的准确率。

CV-MLLM必读论文合集:
希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!
代码与数据集:
论文代码链接: GitHub - SY-Xuan/Pink
