Advertisement

[小白读文献] Flexible Deformation for Fast Surgical Scene Reconstruction with Gaussian Splatting

阅读量:

摘 要

组织形变构成了内窥镜手术场景重建的核心障碍。然而,在提升重建质量的同时,现有方法由于渲染效率低下以及训练时间过长,在实际手术中仍显捉襟见肘。基于最新的实时3D渲染技术研究进展,本研究提出了一种创新性框架Deform3DGS(Flexible Deformation for Surgical Tissues),该框架通过将高斯球体(Gaussian spheres)引入手术场景并结合点云初始化来显著提升组织形变建模能力。进一步地,在单个高斯球体层次上开发了一种新型柔性形变建模方案(FDM),该方案能够有效地建模表面变形过程并实现实时渲染性能。实验结果表明,在DaVinci机器人辅助下采用FDM方案后不仅实现了更高的保真度(PSNR值达到37.90 dB),还获得了令人瞩目的渲染速度(平均达338.8帧每秒),较传统方法减少高达65%左右的时间消耗

一、介绍

传统的重建方法包含冗余的工作流程(包括深度估计、表面重建和纹理映射),这些步骤旨在提升紧凑性和效率。为此

主要贡献

构建了一个高效且具有可变性的手术场景重建系统,并命名为Deform3DGS系统。该系统整合了 GS 技术,并将其应用于手术场景的构建过程中。通过运动感知点融合(MAPF)算法进行密集初始化高斯点云。

2.提出了一种新的柔性形变建模方案( FDM ),以有效地表示组织形变。

名词解释

作为深度学习领域中的创新技术之一

MLP被视为一种核心的神经网络结构,在深度学习领域具有重要地位。它由多个层级构成,并包含一个输入层、若干个隐藏层以及一个输出层。每个隐藏层中的神经元均与上一层的所有神经元进行完全连接,在这种情况下即为一种全面连接网络。作为前馈神经网络的一种形式(Feedforward Neural Network, FNN),MLP在多种机器学习领域中得到广泛应用,并特别适用于分类与回归等典型任务。

快速可变形组织重建框架Deform3DGS, (a)初步点云构建, (b)柔性和延展性形变建模, (c)三维空间中的高斯滤波过程

二、方法

解决方案

在训练阶段中,我们采用MAPF方案,并基于高斯点云G初始化内窥镜场景.其中,FDM通过学习每个高斯点g的时间依赖变化来建模变形组织.随后,我们对生成的变形高斯点云进行渲染,以获取给定相机视点下的彩色图像和深度信息.随后,利用相应的GT图像与立体深度数据作为监督信号,对渲染结果进行优化以提升框架性能.在渲染测试环节中,当提供一个特定的时间查询与相机视点时,FDM能够根据预训练的高斯点云G对其进行形变模拟并生成相应的视图.整个流程旨在通过不断迭代优化模型参数,实现对复杂材料变形行为的有效捕捉与重建.

问题设定

我们的任务是从内窥镜手术视频中训练一个可变形的组织重建模型

si

。给定摄像机的内在矩阵

K

和外在矩阵

au _{i}

,记录第i帧的摄像机视点信息,一个期望的重建模型

si ^{*}

可以在时间戳ti上绘制第i个视点

I_{i}

,即

I_{i}=si ^{*}

2.1 柔性变形建模

提出了新的柔性变形建模方案(FDM),该方案通过可学习的参数配置为基函数赋予灵活性和适应能力。我们采用了基于具有可学习中心位置θ和方差σ的高斯基函数。

ilde{b} =exp^{2}

对于点云中的每个高斯g,在其位置μ和旋转参数r与其对应的组织运动具有自然关联的同时,在仪器干预过程中组织容易发生弹性形变。向每个高斯g增加一组可学习参数以增强模型的表征能力

heta ^{u }

heta ^{r }

heta ^{s}

详细阐述物体在位置、旋转以及尺度上的时间变形情况;举例而言,在x轴方向的位置变化中,变形曲线可以通过一组参数进行描述。

heta ^{u ,x}=eft  w^{u ,x} ,heta^{u ,x},igma^{u ,x}ight

基于高斯函数的独特属性设计而成

2.2点云初始化

在形变建模前的阶段引入了高斯点云初始化以提高重建性能及稳定性。具体而言我们首先采用相机模型与内参数矩阵分析获取每一帧的三维组织点云数据

其中

P_{i}

I_{i}

分别表示来自第i帧的3D点云和2D像素坐标,

D_{i}

M_{i}

分别表示第i个深度图和有效前景掩码,

K

表示内参数矩阵,

dot

表示逐元素乘法。默认情况下,选择第1帧作为正则状态初始化高斯点云,即

P_{c}

=

P_{0}

。由于彩色图像中刀具遮挡的存在,

I_{0}

中的部分像素被

M_{0}

在处理点云数据时

F

是基于结合遮挡区域以及从整体平均图像中呈现出显著色彩对比度的像素点来计算的:

其中

athbb{I}

表示指示函数,

C_{i}

表示第i帧的彩色图像,

N

表示总帧数,

au

是确定具有显著运动像素的阈值。

F

掩盖了具有大运动的区域和初始化高斯点

P_{c}

(即P < 0 )的局部稀疏性。最后,

P_{i}

的3D点和掩模F中的2D投影像素将与

P_{c}

融合,以初始化规范状态。

2.3优化

我们提出的框架联合优化了规范高斯

g_{c}

和由

heta

给出的形变模型。在给定组织掩膜

M

基于这种情况下

其中

at{C}

at{D}

C

D

分别表示渲染图像,渲染深度,GT图像和立体深度。总的训练损失概括为

ounds =ounds _{C}+ounds _{D}

3 实验

数据集

我们对该系统进行了全面评估,并对其在两个数据集上的表现与现有工作进行了对比分析:

EndoNeRF 数据集是从 DaVinci 机器人辅助前列腺切除术数据中采集并包含六个片段的体内窥镜视频序列的集合。每个夹持装置都是基于单一相机视角捕捉的,并受到手术器械遮挡以及组织变形的影响。

StereoMIS 数据集是一个来源于活体猪的立体内窥镜视频数据集,并且该数据集包含了丰富的解剖结构以及复杂的大型变形组织场景。

基于EndoNeRF框架的应用覆盖了全部六个场景,在来自StereoMIS的数据集中提取了三个代表性片段。这些样本所具有的解剖结构更具多样性,并且每个样本时长设定在4至5秒之间,并保持恒定帧率(30fps)。将每场场景的数据按照7:1的比例划分成训练数据与验证数据。通过计算重建图像的质量指标(如PSNR值、SSIM指数以及LPIPS距离)来评估模型性能,并同时统计了模型的训练耗时以及渲染速度指标。

实验方法

我们基于与Endo NeRF及两个现有快速重建技术SOTA的对比实验评估了我们提出框架的有效性。该方案基于GS加速技术实现的并行化内窥镜重建方案。虽然其具备高效重构可变形组织的能力(百分比),但其训练耗时长达数小时(单位),但仍需在极短时间内完成场景重构(分钟)。

相比于其他方法,Ler Plane通过有效的技术手段将训练阶段的时间显著缩短至分钟级范围之内,并且其重建质量明显高于同类方案.我们所提出的框架在所有评估指标上均优于Ler Plane,性能提升了约15%,同时将训练效率提高至原来的十倍,仅需一分钟左右即可完成.此外,我们对比了当前主流的方法,包括EndoGaussian类算法.基于分解特征对动态高斯抛雪球建模的方法相较于基于NeRF的技术展现出卓越的效果,其重建质量与我们框架所得结果相当但仍有细微差距.值得注意的是,得益于高效的FDM机制,我们的方法不仅实现了训练过程(从138秒降至64秒)的重大突破,更使渲染速度从128帧每秒跃升至338帧每秒.虽然在重建质量上表现不相上下,但我们的方法却能在有限时间内实现更为卓越的效果,这充分证明了该方案在特定应用场景下的优势所在.

我们还展示了几个渲染场景,并通过定性评估进一步验证了这些结果的有效性。从观察中可以看出,在此方法下能够显著提升对细节特征的保留能力以及对复杂组织运动形态的建模效果。此外,在Endo Gaussian提供的参考视图中发现其呈现效果与我们的方法基本一致,并未出现任何视觉上可察觉的区别。基于以上分析,在内窥镜场景重建任务中我们的方法表现达到了当前领域的最佳水平(SOTA),尤其是在快速训练效率方面表现尤为突出,并且支持实时级渲染技术的应用,在临床手术操作中的实际应用价值得到了充分验证

四、结论

在本文中, 我们专注于术中手术场景重建, 提出了一个高效可靠的可变形场景重建框架. 基于高斯抛雪球技术, 该框架能够在实时水平上展现出卓越的渲染效果. 为了进一步提升组织运动建模效率, 我们创新性地采用基于可学习高斯基函数的新颖柔性形变模型, 从而实现了对运动特征的有效捕捉. 通过融合运动感知初始化方案, 本研究不仅达到了当前最优重建质量(SOTA)的标准, 更大幅缩短至每场手术仅需1分钟, 展示了应对更具挑战性的手术场景构建长期序列的有效性

全部评论 (0)

还没有任何评论哟~