【计算机视觉前沿研究 热点 顶会】ECCV 2024中扩散模型有关的论文
神经辐射场修复的驯服潜在扩散模型
NeRF是基于多视角图像进行三维重建的一种表示方法。尽管最近的研究者们已在带有扩散先验条件下的NERF编辑方面取得了一些初步成果,然而它们仍致力于在完全未被覆盖区域内生成合理的几何形状。主要的原因在于扩散模型生成内容的高度多样性使得辐射场难以收敛至清晰且确定性的几何形状。此外,在实际数据集上应用潜在式扩散模型通常会导致与图像特征不一致的现象这一现象源于自动编码器带来的错误。为了进一步加剧这些问题,请问您如何解决?为此提出了解决方案:采用场景定制的方法来减少扩散模型随机性的影响,并运用隐式对抗训练策略来降低纹理变化带来的影响。
扩散模型是几何批评者:使用预先训练的扩散先验进行单图像 3D 编辑
我们开发了一种创新性的图像编辑技术体系,在单一图像层面实现了三维操作功能(包括但不限于对象级别的三维旋转)。传统的方法往往基于合成多视图数据集训练专用模型,在面对具有显著不同布局与样式特征的开域测试场景时会面临应用效果受限的问题。相比之下,在广泛文本-图像配对基础上训练的强大扩散架构能够有效缓解这一挑战,并持续提升其泛化性能表现能力。本研究的目标即在于通过迭代优化的新颖视图生成与几何配准算法实现这一技术突破
具有形态骨骼控制的模拟冠状动脉解剖的扩散模型
虚拟干预实现了基于物理设备在患者特定冠状动脉内进行模拟操作。该框架配置了反事实设备设计,在相同的解剖空间下探索替代方案,并阐明了关键因素对患者结果的影响。与之相比,在利用反事实模拟替代场景方面的能力相对有限。本研究探讨了潜在扩散模型(LDM)如何被用来定制合成冠状动脉解剖结构用于虚拟介入研究,并介绍了如何通过增强拓扑有效性、局部形态形状和整体骨骼结构等方面的几何约束来提升模型的效果。
作为数据挖掘工具的扩散模型
我们展示了生成式模型在数据挖掘中的应用。我们主张生成性方法能够准确学习其训练数据的模型结构,并通过该结构研究者可以深入理解其背后的数据特征。基于合成分析的方法具有显著的优势:首先,在处理复杂模式识别任务时表现出色;其次,在捕捉数据间的潜在关联关系方面具有显著优势。
用于 3D 点云降噪的扩散桥
在本研究中,我们采用了创新性的架构来处理点云去噪问题。该架构能够适应扩散薛定格桥在非结构化的三维点集上的应用。与基于单个点特征或学习到的噪声分布预测每个点位移的方法不同,在我们的方法中实现了配对点云间的最佳传输路径优化。通过在包含PU-Net数据集和ScanNet++、ARKitScenes等现实世界数据集上的实验测试,在P2P-Bridge方法上取得了显著的性能提升
单目深度估计的扩散模型:克服拥挤条件
我们开发了一种新型方法来应对单幅图像深度估计任务中数据分布不均匀的情况所引起的复杂性问题,并特别针对恶劣天气条件以及非朗伯物体进行了特殊处理。基于那些有利于深度预测且不含不利因素(如恶劣天气)的前提条件下的图像,在此基础上我们系统地创建用户自定义的任务挑战集及其对应的高质量深度信息。这一过程涉及利用尖端条件扩散模型来生成这些高质量的任务场景,并通过这种模型能够合成高质量内容的能力来实现这一目标的同时保证生成内容与源图像之间的3D结构一致性。
利用交叉扩散模型生成真实的人体运动
介绍了交叉人体运动扩散模型(CrossDiff),这是一种基于文本描述生成高质量人体运动的新途径。我们的研究在训练阶段利用了一个共享的Transformer网络来整合三维与二维数据信息,并实现了对运动噪声的有效整合与统一存储。该系统通过深度学习算法实现了三维与二维数据的有效融合与统一存储,并通过多模态特征融合实现了精确的人体动作捕捉结果输出,并不受输入尺寸限制
