Lite-Mono：一种轻量级的CNN和Transformer架构，用于自监督单目深度估计

阅读量：

Abstract

该段文字阐述了一种无需真实数据（ground truth）进行训练的独特自监督单目深度估计方法。近年来这种方法受到了广泛关注。其核心在于设计出一种既轻量化又具备高效性能的模型以便于在边缘设备上部署。多数现有的架构倾向于采用更为厚重的主干网络以提升性能然而这种方式往往会导致模型体积增大本文提出了一个名为Lite-Mono的新混合架构它既能保证较佳性能又能在资源受限的情况下运行。

具体来说，在这项研究中我们深入探讨了卷积神经网络与变换器的有效融合方式，并在此基础上提出了一种高效的混合架构命名为Lite-Mono。其中包含了两个关键组件：连续膨胀卷积组件（CDC）与局部全局交互组件（LGFI）。连续膨胀卷积组件专门负责提取多样化的多尺度本地特征；而局部全局交互组件则通过自注意力机制将长距离的全局信息有效地编码到特征中。实验结果显示，在准确性方面Lite-Mono显著超越了Monodepth2版本；同时相比该版本可训练参数减少了约80%。

1. Introduction

10, 11, 22

5, 14, 15, 41, 45

17, 33, 39, 41, 46

15, 28, 44

3、35

本研究旨在开发一种轻量级且计算效率高的自监督深度估计模型。该方法结合了基于卷积神经网络（CNN）与变换器架构。其中，在所提出的编码器的各个阶段中通过连续膨胀卷积（CDC）模块捕获增强的多尺度局部特征；随后利用局部-全局特征交互（LGFI）模块计算多头自适应自注意力（MHSA），并将其全局上下文编码到特征中；为了降低计算复杂度，在通道维度而非空间维度上计算交叉协方差注意力机制【1

开发出了一种新型轻量级架构Lite-Mono, 该架构专为自监督单目深度估计设计, 在计算复杂度和浮点运算效率方面表现出色。
所提出的架构在KITTI【13

本文后续内容的安排如下

2.1. Monocular depth estimation using deep learning

单张图像深度估计是一个高度不准确的问题；因为一张2D图像可能对应于多个不同尺度的3D场景；使用深度学习的方法主要分为两类

24, 25, 38

基于监督的depth estimation技术：通过真实_depth_图作为监督信号训练该模型以实现对输入图像中特征的学习，并最终推导出RGB值与_depth_之间的关联关系。Eigen团队在文献【10

2.2. Advanced architectures for depth estimation

3. The proposed framework: Lite-Mono

3.1. Design motivation and choices

已有研究表明[15, 17, 44]指出], 采用一个高效的编码器能够显著提升特征提取效果, 进而优化系统性能[15, 17, 44]. 本文重点在于提出一种轻量级编码器, 其能在输入图像中提取高质量特征 图2展示了所提框架的核心架构: 包括深度网络模块(DepthNet)及其相关工作原理(第3.2节), 和姿态估计模块(PoseNet)及其相关工作原理(第3.3节). 具体而言, DepthNet能够从输入图像中推断出多尺度空间中的反深度信息; 而PoseNet则可估算相邻帧间的相机运动参数, 进而生成目标重建图像并计算损失函数以优化模型训练[3.4节].

增强的局部特征：

具有低计算复杂度的全局信息： 即使没有借助于变换器（Transformers）的帮助进行学习,增强后的局部特征也无法充分表征输入数据的整体信息。原始多头自注意力机制（MHSA）在计算复杂度上与输入空间维度呈线性关系,这一特性严重制约了轻量级模型架构的发展。所提出的局部-全局特征交互模块（LGFI）通过沿特征通道应用交叉协方差注意力机制 [1] 来捕获各特征通道间的关联关系,相较于传统的自注意力机制 [8],其优势主要体现在降低了内存和时间复杂度。具体而言,在内存复杂度方面,本方法将原有的 $O(hN^2 + Nd)$ 提升至 $O(d^2/h + Nd)$ ,同时在时间复杂度上实现了从 $O(N^2d)$ 到 $O(Nd^2/h)$ 的优化.这里 $h$ 表示关注头的数量.下面将详细阐述所提架构的设计原理及其优势.

3.2. DepthNet

深度编码器

3.3. PoseNet

基于参考文献[15, 46]的研究基础之上

3.4. Self-supervised learning

与传统的基于真实深度值的有监督学习不同，在这项研究中我们将深度估计过程建模为图像重建任务。参照文献[45]的方法论框架，在本研究中我们提出了以下两项核心创新：第一，在优化过程中我们引入了一种新的损失函数来衡量目标图像 It 和生成的目标图像 ˆIt 之间的图像重建质量；第二，在预测得到的深度图 Dt 上同时施加一种基于边缘感知的平滑约束以提升整体重构效果。

全部评论 (0)

还没有任何评论哟~

Lite-Mono：一种轻量级的CNN和Transformer架构，用于自监督单目深度估计

Abstract 这段文字介绍了一种无需真实数据（groundtruth）进行训练的自监督单目深度估计方法，该方法近年来备受关注。重点在于设计轻量级但有效的模型，以便能够在边缘设备上部署。许多现有架构...

CVPR2023 | 轻量高效的自监督深度估计框架Lite-Mono

关注公众号，发现CV技术之美自监督学习近一年来可谓是计算机视觉的大热门，今天向大家分享一篇来自CVPR2023的论文『LiteMono:ALightweightCNNandTransformerAr...

自监督单目深度估计

前几天阅读了一篇论文，于是忍不住写下本次的记录，个人见解哦！题目： DeepDiggingintotheGeneralizationofSelfSupervisedMonocularDepth Es...

深入研究自监督单目深度估计：Monodepth2

单目深度估计模型Monodepth2对应的论文为DiggingIntoSelfSupervisedMonocularDepthEstimation，由伦敦大学学院提出，这篇论文的研究目标是从单目RGB...

深入研究自监督单目深度估计：Monodepth2

点击上方“3D视觉工坊”，选择“星标” 干货第一时间送达单目深度估计模型Monodepth2对应的论文为DiggingIntoSelfSupervisedMonocularDepthEstimati...

论文笔记_S2D.71_2020_CVPR_用于自监督单目深度估计的3D packing

基本情况出处：Guizilini,V.,Ambrus,R.,Pillai,S.,Raventos,A.,&Gaidon,A.2020.3dpackingforselfsupervisedmonocu...

轻量级快速单目深度估计模型

进行深度估计，三维重建，位姿估计实时的轻量级单目深度估计模型，只需一张输入图像，便可进行上述任务。以下是链接，发表于21ICCV,RMSFM循环深度细化模型 <https://openaccess.t...

单目深度估计自监督模型Featdepth解读（下）——openMMLab框架使用

在上一篇博客里分析了Featdepth论文原理和核心源码，也就是模型部分，包括网络结构和损失函数计算：苹果姐：单目深度估计自监督模型Featdepth解读（上）——论文理解和核心源码分析本篇博客将...

浅谈无监督单目深度估计框架的局限性

浅谈无监督单目深度估计框架的局限性个人拙见，欢迎交流文章目录浅谈无监督单目深度估计框架的局限性一、无监督框架 1.基本网络框架 2.基本损失函数视图重构损失平滑损失二、基本假设 1.静态...

双目估计方法_强大的自监督深度估计monodepth2

monodepth2是本人比较喜欢的一篇文章，目前自监督深度学习取得最好进展的地方，一般说来自监督不需要标注，使用内在几何（通常是多视图几何）关系监督学习，从另一个侧面说明3d视觉才是视觉的本质。文...

是否确定退出登录?

Lite-Mono：一种轻量级的CNN和Transformer架构，用于自监督单目深度估计

Abstract

1. Introduction

2. Related work

2.1. Monocular depth estimation using deep learning

2.2. Advanced architectures for depth estimation

3. The proposed framework: Lite-Mono

3.1. Design motivation and choices

3.2. DepthNet

3.3. PoseNet

3.4. Self-supervised learning

全部评论 (0)

相关文章推荐

Lite-Mono：一种轻量级的CNN和Transformer架构，用于自监督单目深度估计

CVPR2023 | 轻量高效的自监督深度估计框架Lite-Mono

自监督单目深度估计

深入研究自监督单目深度估计：Monodepth2

深入研究自监督单目深度估计：Monodepth2

论文笔记_S2D.71_2020_CVPR_用于自监督单目深度估计的3D packing

轻量级快速单目深度估计模型

单目深度估计自监督模型Featdepth解读（下）——openMMLab框架使用

浅谈无监督单目深度估计框架的局限性

双目估计方法_强大的自监督深度估计monodepth2