Advertisement

论文速递 IJCAI, 2023 | Acoustic NLOS Imaging with Cross-Modal Knowledge Distillation

阅读量:

注1:本文属于“计算成像最新论文速览”系列作品中的一份文章,旨在系统梳理与解析非视距成像领域的最新研究成果及顶级期刊与会议论文(包括但不限于以下顶级期刊与会议:Nature、Science及其下属期刊; CVPR、ICCV、ECCV、SIGGRAPH、TPAMI; Light Science & Applications、Optica等)。

在这里插入图片描述

本次研究的论文是: IJCAI, 2023年发表的一篇关于声呐非定位超外距成像结合跨模态知识蒸馏的研究论文

文章DOI: https://www.ijcai.org/proceedings/2023/

IJCAI 2023 | 基于跨模态知识蒸馏的声学非视距成像

1 引言

非视距成像是通过解析信号反射特性来恢复隐藏场景的一项技术。它展现出广泛的应用潜力,在自动驾驶与医学成像等领域均有显著应用。然而传统基于光学手段的非视距成像方法往往建立在易受干扰的基础之上,并且存在泛化能力不足的问题。近年来随着声波技术的发展相关研究呈现出蓬勃发展态势。针对现有技术存在的缺陷本研究创新性地提出了跨模态知识蒸馏(CMKD)方法这一方案不仅成功整合了图像与音频两大模态而且实现了对噪声的高度鲁棒性同时具备良好的推广性能。

在这里插入图片描述

2 动机

物理模型方法基于声波传播的时间参数等信息,然而环境噪声往往会对其造成干扰。通过深度学习的方法虽然能够在数据中提取有效的特征,但对未曾见过的物体其重建效果有限。探讨如何有效结合两个模态的优势是我们研究的重点之一。

图像模态能够非常有效地表达视觉细节和空间信息。而音频模态则专注于捕获动态信息。若将图像神经体元作为教师神经体元,并将其融入audio神经体元的学习过程,则 audio 神经体元便能获得更强的泛化能力。此外,在跨模态知识转移的过程中,默认情况下这一机制也能够显著提升模型在面对噪声干扰时的表现能力(鲁棒性)。

因此,在这项研究中提出了一个多模态知识蒸馏框架,并通过设计音频网络使其模仿图像网络输出,并据此获取图像网络提取全局信息的能力;从而使得仅基于音频条件即可实现高质量非视距重建。

3 方法

在这里插入图片描述
在这里插入图片描述

该系统架构主要包含视觉 teacher 网络与语音 student 网络作为核心模块。如上图所示其训练过程划分为两个阶段:数据预处理与特征提取模型训练与参数优化。

(1) 先训练好图像网络,使其能够从 RGB 图像生成深度图。

(2) 固定图像网络的参数,在训练音频网络时将多声源语音信号转译为深度图,并利用知识蒸馏损失项引导其模仿图像网络的行为输出。

3.1 图像教师网络

图像网络基于 U-Net 架构设计的自动生成编码模型包含编码模块与解码模块。该模型通过 RGB 图像识别其关键特征并利用这些信息进行深度重建。

3.2 音频学生网络

音频网络包含三个部分:

音频特征提取器 :将多音道音频作为输入,输出特征表示

转换器 :将特征转换为深度图

判别器 :判断预测的深度图是否真实

本研究的核心在于通过3D卷积神经网络来识别音频中的时空信息。此外,转换器采用了与图像识别架构相似的设计模式,从而实现了跨域知识的有效共享。

3.3 目标函数

图像网络使用 L1 损失进行监督。
G_t^*=\min _{G_t} \mathcal{L}_{\text {Depth }}\left(G_t\right)

音频网络不仅包含转换器的重建损失、判别器的对抗损失,此外还加入了师生网络编码器之间的知识蒸馏项。这个项用于缩小两个网络在特征空间的距离,促使音频网络借鉴图像网络的特征提取能力。

定义G_s^*为在约束条件下的优化结果:即通过最小化生成器与判别器之间的对抗损失以及辅助深度损失和知识 Distill 损失之和而得到的最佳生成器参数。
具体而言,
G_s^* = \argmin_{G_s} \max_{D_s} \left[ \frac{1}{2}\mathcal{L}_{GAN}(D_s) + \mathcal{L}_{GAN}(G_s) + \alpha\mathcal{L}_{Depth}(G_s) + \beta\mathcal{L}_{KD}(G_S) \right]

4 实验与结果

作者开发了一个真实的多通道语音采样系统,并成功收集了丰富的相关图像、深度图和音频数据集。在所构建的数据集中进行了系统的训练与验证过程。

在这里插入图片描述
在这里插入图片描述

主要的比较方法包括:

  • 利用物理模型进行处理的方法
  • 该方法专门针对音频重建场景进行处理
  • 该方法结合层次音频编码器进行优化

研究结果表明,开发出的 CMKD 方法在重建训练物体方面表现优异,并在处理未见物体任务时同样出色,显著优于现有标准方法。该发现有力地证明了跨模态知识迁移技术的实际有效性

在这里插入图片描述
在这里插入图片描述

此外,作者对ablation study进行了系统评估。研究表明3D卷积特征提取器和知识蒸馏在模型性能提升中发挥着关键作用。

在这里插入图片描述

5 不足与展望

所提出的方法在处理重型材料和类别不同的未知物体类别的测试样本时仍存在明显的局限性。这些局限性可能与现有数据集的种类限制有关。未来的工作应致力于扩展数据集以涵盖更多样化的形状和类型。

此外,还可以采用多种跨模态架构,通过反向指导的方式促进音频网络对图像网络的知识支持,实现知识的双向迁移

6 总结

本文探讨了跨模态知识蒸馏在声学非视距成像中的应用方案。实验结果表明,这种方案能够充分利用两个子空间的优势,使得模型表现出更强的抗噪声能力,并且具有良好的泛化性能,能够有效地推广到未知领域中的目标物体识别任务中。该研究为声学非视距成像技术的发展提供了富有潜力的方向

基于图像网络的引导下训练音频模型,该模型具备捕捉整体特征并实现精细还原的能力。这一跨域的数据融合方案同样适用于多个研究领域,提供了一种高效的知识转移模式。

全部评论 (0)

还没有任何评论哟~