【前沿 热点 顶会】NIPS 2024中目标检测有关的论文
迈向灵活的 3D 感知:以对象为中心的占领完成增强长序列的 3D 目标检测
虽然 3D object bounding boxes (BBox) have been extensively employed in autonomous driving perception systems, they exhibit significant limitations in capturing the intricate geometric details of objects. In recent years, the concept of occupancy has emerged as a promising alternative for 3D scene perception. However, due to computational constraints, constructing high-resolution occupancy maps remains impractical for large-scale scenes. Recognizing that foreground objects hold a more important status relative to background elements, albeit occupying only a small portion of the scene, we propose incorporating center-based occupancy as a complementary representation to traditional object bounding boxes. This novel approach not only provides enhanced detail for detected objects but also enables higher voxel resolution in practical applications. Through advancements in both data acquisition and algorithmic development, we have significantly expanded the capabilities of center-based occupancy representations.
有理论保证的无监督目标检测
在深度神经网络驱动下进行的无监督目标检测往往面临很大的挑战,并未提供可靠的表示基础。为探索这一领域的新方法,在这项研究工作中我们首次提出了一种无监督的目标检测技术,在理论上能够精确恢复到真实目标位置附近微小偏移量。为此我们设计了一种创新的目标检测体系架构,并证明了系统参数与真实目标位置之间存在一一对应关系,直到受到编码器与解码器接受区域尺寸、目标实际尺寸以及渲染过程中高斯模糊度等因素所限的小范围偏差为止。我们深入分析了误差与相关系统变量之间的依赖关系,并通过精心设计的合成实验验证了理论预测的准确性,在此过程中实现了单个像素级别的检测精度水平
MonoMAE:通过深度感知掩蔽自动编码器增强单目 3D 检测
主要目标是从单视角图像中精确识别并定位物体。尽管近年来取得了显著的进步,在处理普遍存在的遮挡问题时仍会面临诸多挑战。我们开发了一种称为MonoMAE的单目3D探测器,在借鉴了隐藏自编码器的设计理念的基础上进行优化。该探测器通过覆盖并重构特征空间中的物体来克服目标遮挡问题,并主要由两个创新的设计模块构成
YOLOv 10:实时端到端对象检测
近年来,在计算成本与检测性能之间的良好平衡下
DI-MaskDINO:联合对象检测和实例分割模型
本文对MaskDINO算法展开深入探讨,在分析其初始Transformer解码层(即联合检测与分割领域中表现最优的主流模型)运行过程中的中间结果时
FFAM:用于解释 3D 检测器的特征因子分解激活地图
近年来,在激光雷达技术驱动下进行的三维目标检测取得了令人印象深刻的结果。然而,在这一领域中占据主导地位的传统深度学习模型本质上属于黑箱架构,并未能充分揭示其决策机制的本质特性。传统的可视化分析方法主要针对基于图像的数据建模,在针对LiDAR实现的3D探测器方面仍存在不足。本研究中,我们开发了一种称为特征分解激活图(FFAM)的新方法。
AdaptiveISP:学习用于对象检测的自适应图像信号处理器
图像信号处理器将传感器的原始信号转换为数字图像,这对图像质量和下游计算机视觉任务的性能有很大影响。设计 isp 流水线和调整 isp 参数是构建成像和视觉系统的两个关键步骤。为了找到最优的 isp 配置,最近的工作使用深度神经网络作为代理来搜索 isp 参数或 isp 管道。然而,这些方法主要是为了最大化图像质量而设计的,这些图像质量在诸如检测、识别和跟踪等高级计算机视觉任务的性能上是次优的。此外,经过训练后,学习到的网络服务提供商流水线在推理时大多是固定的,在动态场景中性能下降。为了联合优化服务提供商的结构和参数,我们提出了一种任务驱动和场景自适应的服务提供商 AdaptiveISP。
一个适用于所有:基于点云的 3D 对象检测的多域联合训练
当前计算机视觉的发展趋势是运用统一模型以应对各类不同任务。构建这样的统一模型必然要求整合多源数据,在跨领域学习中实现统一训练。然而,在基于点云的三维物体检测领域中实施多领域联合训练面临巨大挑战——由于来自不同数据集的点云间存在显著的域差异性——导致跨领域学习效果欠佳甚至出现负面效果。为此我们需要开发一种能够在单一框架内完成多种场景类别检测的一体化解决方案。为此我们提出了一种名为OneDet3D的新方法——它不仅实现了对室内与室外场景等多种场景类别进行高效检测而且能在相同的参数配置下覆盖从复杂到简单不同类型的数据分布从而显著提升了检测性能并实现了对三维目标检测问题的有效建模与求解
长尾对象检测预训练:动态再平衡双重建对比学习
尽管大规模预训练与下游微调被视为目标检测领域中一种常用的技术方案,在实际应用中却难以满足复杂数据分布的需求。通过深入研究发现,在面对具有显著长尾分布的数据集时不仅归因于分类器权重规范化中存在的极端失衡问题还反映了特征表示水平上的本质缺陷。针对这些问题提出的解决方案本研究提出了一种创新性的预训练方法——动态再平衡双重重建对比学习模型(DRCL)。
获取和伪造:用于对象检测的高效数据集浓缩
新兴技术数据集压缩法(DC)是一种前沿性方法,在处理大量原始数据时展现出强大的能力,在生成紧凑型合成数据集的同时保持较高的性能水平,并对提高网络训练效率和减少数据存储需求具有重要意义。然而目前该方法在图像分类领域的研究较为发达而在目标检测方面的应用相对较少这主要归因于两个关键因素:(1)由于目标检测涉及多个任务特性导致压缩过程变得复杂;(2)其针对具有大规模且高分辨率特点的目标检测数据集设计现有方法存在明显不足。该方法主要由FETCH与FORGE两个阶段组成FETCH阶段将定位与分类信息编码到模型参数中随后通过模型反演生成合成图像
多视图 3D 对象检测的统一领域概括和适应
基于多视角摄像机的三维目标检测方法在各种具有挑战性的视觉任务中具有应用价值及经济性优势。然而,在源与目标域之间难以避免的几何偏移问题导致传统的监督学习方案难以良好地适应不可见且未标记的目标数据集(即直接转移)这一挑战。在实际应用中还受限于训练模型与注解收集所需资源而未能实现三维物体检测器的有效部署。为此我们提出了一种实用解决方案——统一域泛化及适应框架(UDGA)。该框架首先利用多视点间的强关联性提出了一种多视点重叠深度约束方法继而在此基础上构建了相应的优化模型并设计出一种高效的特征提取策略从而实现了对未知领域数据的有效学习与适应同时较好地继承了源域知识以提高训练效率与模型性能总体而言UDGA框架能够在源域与目标域间稳定实现目标检测性能同时有效弥合因几何偏移所带来的不可避免域差距并且能在注解量大幅缩减的情况下(如仅需标注1%或5%的新类别)维持较高的检测准确率。通过大规模基准测试包括nuScenesLyft及Waymo等现实世界场景验证了该框架的优势其中所提出的方案在性能上超越了现有最先进的同类方案。
NIPS 2024论文合集PDF版
本文的主要内容基于NIPS 2024 论文题目与摘要的检索结果。
这份资料汇集了NIPS 2024所有论文的标题与摘要,并提供了中英对照版本。共计3547页内容读起来更加便捷。
如果你对人工智能领域感兴趣于或是寻找灵感的欲望存在的话……这绝对是个无庸置疑的优质资源库。深入研究这些前沿成果……或许能寻找到一些富有启发性的新思路或新方向。
当有时间时偶尔翻阅一下吧?既能增长知识又能紧跟时代步伐呢!看起来非常实用!如果有空闲不妨抽些时间看看吧?应该会有新的收获哦!
NIPS 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpyUlp5v
CVPR 2024 收录所有论文题目和题目的合集:https://mbd.pub/o/bread/ZpeYmplt
