Lite-Mono:一种轻量级的CNN和Transformer架构,用于自监督单目深度估计
Abstract
该段文字阐述了一种无需真实数据(ground truth)进行训练的独特自监督单目深度估计方法。近年来这种方法受到了广泛关注。其核心在于设计出一种既轻量化又具备高效性能的模型以便于在边缘设备上部署。多数现有的架构倾向于采用更为厚重的主干网络以提升性能然而这种方式往往会导致模型体积增大本文提出了一个名为Lite-Mono的新混合架构它既能保证较佳性能又能在资源受限的情况下运行。
具体来说,在这项研究中我们深入探讨了卷积神经网络与变换器的有效融合方式,并在此基础上提出了一种高效的混合架构命名为Lite-Mono。其中包含了两个关键组件:连续膨胀卷积组件(CDC)与局部全局交互组件(LGFI)。连续膨胀卷积组件专门负责提取多样化的多尺度本地特征;而局部全局交互组件则通过自注意力机制将长距离的全局信息有效地编码到特征中。实验结果显示,在准确性方面Lite-Mono显著超越了Monodepth2版本;同时相比该版本可训练参数减少了约80%。
1. Introduction
10, 11, 22
10, 11, 22
5, 14, 15, 41, 45
15
15
17, 33, 39, 41, 46
15, 28, 44
8
3、35
15
1
1
本研究旨在开发一种轻量级且计算效率高的自监督深度估计模型。该方法结合了基于卷积神经网络(CNN)与变换器架构。其中,在所提出的编码器的各个阶段中通过连续膨胀卷积(CDC)模块捕获增强的多尺度局部特征;随后利用局部-全局特征交互(LGFI)模块计算多头自适应自注意力(MHSA),并将其全局上下文编码到特征中;为了降低计算复杂度,在通道维度而非空间维度上计算交叉协方差注意力机制【1
13
- 开发出了一种新型轻量级架构Lite-Mono, 该架构专为自监督单目深度估计设计, 在计算复杂度和浮点运算效率方面表现出色。
- 所提出的架构在KITTI【13
本文后续内容的安排如下
2. Related work
2.1. Monocular depth estimation using deep learning
单张图像深度估计是一个高度不准确的问题;因为一张2D图像可能对应于多个不同尺度的3D场景;使用深度学习的方法主要分为两类
10
10
24, 25, 38
22
11
10
10
10
基于监督的depth estimation技术:通过真实_depth_图作为监督信号训练该模型以实现对输入图像中特征的学习,并最终推导出RGB值与_depth_之间的关联关系。Eigen团队在文献【10
12
14
15
2.2. Advanced architectures for depth estimation
33
8
43
3. The proposed framework: Lite-Mono
3.1. Design motivation and choices
已有研究表明[15, 17, 44]指出], 采用一个高效的编码器能够显著提升特征提取效果, 进而优化系统性能[15, 17, 44]. 本文重点在于提出一种轻量级编码器, 其能在输入图像中提取高质量特征 图2展示了所提框架的核心架构: 包括深度网络模块(DepthNet)及其相关工作原理(第3.2节), 和姿态估计模块(PoseNet)及其相关工作原理(第3.3节). 具体而言, DepthNet能够从输入图像中推断出多尺度空间中的反深度信息; 而PoseNet则可估算相邻帧间的相机运动参数, 进而生成目标重建图像并计算损失函数以优化模型训练[3.4节].
增强的局部特征:
具有低计算复杂度的全局信息: 即使没有借助于变换器(Transformers)的帮助进行学习,增强后的局部特征也无法充分表征输入数据的整体信息。原始多头自注意力机制(MHSA)在计算复杂度上与输入空间维度呈线性关系,这一特性严重制约了轻量级模型架构的发展。所提出的局部-全局特征交互模块(LGFI)通过沿特征通道应用交叉协方差注意力机制 [1] 来捕获各特征通道间的关联关系,相较于传统的自注意力机制 [8],其优势主要体现在降低了内存和时间复杂度。具体而言,在内存复杂度方面,本方法将原有的O(hN^2 + Nd)提升至O(d^2/h + Nd),同时在时间复杂度上实现了从O(N^2d)到O(Nd^2/h)的优化.这里h表示关注头的数量.下面将详细阐述所提架构的设计原理及其优势.
3.2. DepthNet
深度编码器






3.3. PoseNet
基于参考文献[15, 46]的研究基础之上
3.4. Self-supervised learning
与传统的基于真实深度值的有监督学习不同,在这项研究中我们将深度估计过程建模为图像重建任务。参照文献[45]的方法论框架,在本研究中我们提出了以下两项核心创新:第一,在优化过程中我们引入了一种新的损失函数来衡量目标图像 It 和生成的目标图像 ˆIt 之间的图像重建质量;第二,在预测得到的深度图 Dt 上同时施加一种基于边缘感知的平滑约束以提升整体重构效果。

