Advertisement

AAAI 2023| 旷视研究院入选论文亮点解读

阅读量:
2ef3edfd7f891af8eacf0c2d8bf766f3.gif

近期

由国际人工智能促进协会主办的年度盛会,在人工智能领域具有最长历史、最为全面且具影响力的国际顶级学术会议之一,并被中国计算机学会(CCF)评为 A 类国际顶级学术会议。其入选论文则涵盖了 3D 重建技术、多目标跟踪系统、融合视觉语言模型等多种创新方法。以下是入选论文摘要:

6383206d3405f9642f91fbe2f3217789.png

01

基于部分监督的深度大基线单应性估计器带逐步等效约束

基于渐进式等价约束的半监督深度大基线单应性矩阵估计

在大基线场景中因图像间的重合度较低且相对运动较大导致单应性矩阵难以直接获得为此我们提出一种渐进式的估计策略将large-baseline单应性矩阵分解为多个中间步骤通过累积相乘这些中间步骤则可逐步恢复初始单应性矩阵在此方案下我们设计了一种半监督式的单应一致性损失函数它由两部分组成一部分用于优化各中间阶段的单应关系另一部分则基于累积重构的方法实现了对large-baseline单应性的无监督学习同时构建了一个包含常规场景与具有挑战性的场景的数据集

78ab87afd1efe7ce67234a2f0240d5d9.jpeg

所属领域:图像对齐/配准

关键词:半监督、大基线单应性矩阵、图像对齐

02

One is All: Connecting the Dots Between Neural Radiance Fields Architectures and Progressive Volume Distillation

一即一切:通过渐进式体蒸馏弥合神经辐射场架构间的差距

基于神经网络的辐射场表示

论文链接:

_https://arxiv.org/abs/2211.15977_

开源链接:

_https://github.com/megvii-research/AAAI2023-PVD_

fc36203935fb00387c6c7933a6af53ce.png

**所属领域:3D重建
**

关键词: 神经辐射场、蒸馏、NeRF、INGP、Plenoxels、tensoRF

03

The application of Multiple Object Tracking techniques to previously unobserved domains can be facilitated through the incorporation of Natural Language Representation methods.

利用自然语言表征提升多目标跟踪跨域跟踪性能

本文进一步指出,在当前多目标跟踪任务中存在一个普遍性的问题:即训练集与测试集通常来自同一场景类别(例如MOT17、MOT20等数据集)。基于这一前提,在不进行专门微调的情况下直接将现有的SOTA(最优)跟踪算法照搬使用会导致其在新领域中的表现严重下降。鉴于此,在现有研究的基础上本文特别强调首次提出了一种利用自然语言高层次语义信息解决跨领域跟踪难题的新方法:具体而言是首次将视觉语言预训练模型CLIP与其结合至基于查询的目标追踪框架中,并在此基础上构建了新的多目标追踪模型LTrack。该模型不仅能够在同类场景中展现出优异性能更能有效应对跨领域情况下的追踪任务要求从而为后续利用语言信息与视觉信息协同工作的相关研究提供了一个创新性的解决方案。

631003e80a604ebf40a6d544e7e071da.png

所属领域:多目标跟踪,视觉语言多模态

关键词:多目标跟踪、视觉语言模型、跨域

04

BEVStereo: Improving depth estimation through multiple viewpoints in 3D object detection utilizing temporal stereo techniques

BEVStereo:利用时序立体提升环视 3D 检测中的深度估计准确度

大多数基于立体视觉进行深度估计的3D检测方法通常会遇到两个主要挑战:一是显存消耗过高以及二是难以处理运动物体的问题。BEVStereo通过引入动态立体视觉的方法有效解决了这些问题,并且提出了一种circle NMS算法来处理物体尺寸,在计算过程中既避免了旋转IoU(rotated IoU)的影响又考虑了box尺寸。

论文链接:

_https://arxiv.org/abs/2209.10248_

开源链接:

_https://github.com/Megvii-BaseDetection/BEVStereo_

3242eca5fef35be9f154b3863e0862ac.png

所属领域:3D 检测

关键词:动态立体视觉

05

BEVDepth: Reliable Depth Estimation in 3D Object Detection

BEVDepth:在 3D 目标检测中获取可靠深度

在当前基于LSS的三维目标检测算法体系中, 其中_depth_预测模块输出的_depth_估计精度不足, 我们在研究工作中通过引入depth_supervision, 构建相机内外参数编码机制并设计了一种depth_refinement子网络. 这些改进措施使得LSS模型的_depth_估计精度得到了显著提升.

论文链接:

_https://arxiv.org/abs/2206.10092_

开源链接:

_https://github.com/Megvii-BaseDetection/BEVDepth/_

5a4c9a5aeb4e269bf01fc40f91e7b10c.png

所属领域:3D 检测

关键词:reliable depth

技术信仰,价值务实

旷厂小伙伴们还将带来怎样的技术创新?

让我们一起期待吧!

2e26bd070eae816a48f945c5fe67af28.gif

全部评论 (0)

还没有任何评论哟~