Colmap论文之一:Pixelwise View Selection for Unstructured Multi-View Stereo
标题:Pixelwise View Selection for Unstructured Multi-View Stereo
作者:
Johannes L. Schönberger(ETH Zurich) Enliang Zheng(UNC Chapel Hill) Marc Pollefeys(ETH Zurich及微软) Jan-Michael Frahm(UNC Chapel Hill)
摘要:
这项研究阐述了一个专为非结构化图像集合设计的Multi-View Stereo (MVS) 系统,并旨在实现可靠且高效的密集重建。该系统的主要贡献体现在以下几方面:第一,在方法论上实现了基于深度学习的技术在多视图重构中的应用;第二,在算法层面引入了自适应采样策略以显著提升重建精度;第三,在性能优化方面进行了多项创新以降低计算资源消耗
- 深度与法线信息的综合推断
- 基于光度特性和几何约束,在像素级别选择最优视图
- 同时实现细节增强以及基于图像深度与法线融合的多视角一致性优化项,并通过大规模图像数据库实验验证了该方法在精度、完整性及效率上均达到国际领先水平。

1. 引言:
大规模的3D重建从互联网照片中已经经历了深刻的演变。尽管这种技术在稀疏建模(基于Structure-from-Motion, SfM)和密集建模(基于Multi-View Stereo, MVS)方面都有所应用,在众多应用场景中具有至关重要的作用,如图像分类、图像基渲染以及定位等。然而,在非受控环境下的密集场景建模仍面临巨大挑战。尽管立体视觉方法的核心问题是像素级对应关系搜索,在已知视图几何和光照条件下恢复正确对应仍存在困难。尤其当输入数据来自开源平台时,在非受控环境下构建精确、完整且美观的密集模型仍然面临巨大挑战
针对这些挑战,本研究提出了一种新方法,并借鉴了Zheng等人的研究思路。其主要贡献体现在以下几个方面:
- 在改进后的PatchMatch采样方案中嵌入了基于像素级的法线估计技术。
- 基于几何优先权的选择,在三角测量角、事故角以及图像分辨率的基础上进行像素级视图选择。
- 引入的时间相关平滑项。
- 通过具有适应性窗口的双边光度一致性的支持,在遮挡边界的行为上有所改善。
- 同时用于深度与法线估计的多视角几何一致性项。
- 经过可靠处理后深度与法线信息的有效融合过程。
这些技术进一步支持能够从生成的点云中提取出精确的三维模型。同时,在Middlebury和Strecha等标准化测试中获得了最新的性能记录。为了更好地验证该算法的优势,在多个领域的SfM模型上进行了成功应用。此外,在GitHub上发布了一个开源项目以实现这一算法。
这篇引言不仅介绍了现有技术及其存在的局限性,并且明确阐述了该方法的主要贡献以及在多个基准测试中的突出表现。
2. 相关工作:
本文着重探讨了立体方法在准确性、完整性、可扩展性以及基准测试方面的显著进步。从双视图设置开始逐步扩展到多视图框架。特别强调了多视图立体方法通过多角度信息消除传统立体方法中的遮挡限制,并指出其成功与否取决于合适的视图选择。具体而言,Kang等人采用了一种基于像素分辨率的最佳匹配策略来优化选景;而Strecha等人则在马尔科夫随机场框架下构建了像素级深度估计模型,并结合场景可见性和局部深度平滑假设以提升预测精度。
接着例如Goesle等人提出了一种专门针对从众包图像重建的技术方案该方案通过优化相机阵列布局来适应表面特征并根据各个相机的感知能力进行分辨率调节以提高整体重建效果为了实现深度估计他们采用了四组最适合每个像素的最佳匹配图像而本文所提出的方法则提供了一种更加灵活的数据选择机制这种机制不仅允许在数据集范围内进行像素级视图选择还能够有效避免预先设定固定的视图集合从而提升了重建的完整性和准确性此外还有其他一些用于众包图像的大规模稠密重建方法值得提及如Furukawa等人采用的是基于启发式的预选策略而Gallup等人则采用了更为复杂的融合算法这些方法虽然在一定程度上提高了重建效果但也存在一定的局限性
此外,在立体匹配中考虑表面法线的问题上,文中对此进行了详细探讨。其他研究者则致力于通过估计每个像素处的法线来减少成本函数带来的失真效果。然而,在这些研究的基础上,并非仅仅局限于利用光度信息与几何约束这两种手段。本文则通过概率模型的方式,在单个观测光线的角度上评估其对可靠表面恢复的作用力,并以此提升深度信息以及表面法线估计结果的质量。
综上所述,“相关工作”部分系统性地综述了多视图立体方法、视图筛选过程以及深度图融合技术等领域的代表性研究成果
3. 联合视图选择和深度估计
该部分聚焦于联合视图选择与深度估计的技术。在某些情况下,两个补丁的颜色分布是相互独立的;它们之间的颜色相似性基于 NCC-正交同构变形的标准化交叉相关性 进行衡量。将推断深度与遮挡的问题转化为对参考图像中每个像素恢复其深度信息与遮挡状态。该方法引入了变分推理框架作为解决方案的基础,并通过交替传播策略逐步求解问题。尽管该方法在计算资源上的消耗较大,在实际应用中可以通过 蒙特卡洛 方法实现对最佳视图选择的近似优化以提高效率。

颜色分布特征和相似性评估方法 :当存在遮挡时,在图像处理中所分析的两个补丁的颜色分布特征之间不存在显著关联,并且它们服从预先设定的均匀概率分布。

该研究反映了参考补丁与其源补丁在色调间的相似性特征。这种相似性特征被正交同构变形的标准化交叉相关性(NCC)这一指标所确定。
状态转移矩阵:描述了从前一个像素到当前像素的参考补丁在源图像中可见的情况。其中引入了一个参数γ用于鼓励空间上平滑的遮挡指示。
估计问题:基于给定的参考图像和源图像,在参考图像的所有像素中估计深度参数θ以及遮挡标志Z的问题被提出。该估计过程基于后验概率模型P(Z,θ|X),其中X表示观测到的数据,并假设深度参数θ服从均匀先验分布。
贝叶斯方法在计算上存在显著挑战:尽管可以通过计算联合概率P(X, Z, θ)然后对P(X)进行归一化来求解归一化系数α(θ),但在实际操作中仍需面临诸多技术障碍;这些挑战往往会导致该方法难以实现有效的应用。
通过变分推理技术,Zheng团队基于变分推理理论构建了一个框架。该框架属于通用期望最大化(GEM)算法的一种变体形式。其中PatchMatch启发式采样技术被用于推断θ变量。
深度推断:该方法通过递归过程解决了固定θ下的Z值问题,并且反过来也成立;采用交替的行与列传播策略。
运算开销:在进行大量NCC运算时,在M达到较大值的情况下,PatchMatch算法的运算开销会显著增加。
概率与估计
源图像选择 :不是所有源图像均对深度推断提供有用信息。基于此، Zheng等人建议采用蒙特卡洛方法以近似最优视图的选择.
部分阐述了联合视图选择与深度估计的技术,并说明该方法通过变分推理与蒙特卡洛近似技术高效估算参考图像中的深度信息及遮挡状态。
4. Algorithm
法线估计 :
文章指出,在引入具有斜面结构的伪影时会采用fronto-parallel homographies方法。为了解决这一问题,在缺乏场景先验知识的情况下,默认假设一个均匀分布的法线先验。
基于深度与法线的变化情况,在没有场景先验信息的情形下,默认假设一个均匀分布的法线先验。
色彩相似性指标在此处不再依赖fronto-parallel homographies模型而改以倾斜度为基础进行评估。
为了实现这一目标,在实际操作中选择PatchMatch算法作为基础工具,并设计了一种有效的传播方案来维持深度估计的有效性。
与传统二分法迭代细化法线的方法不同,在这种新的采样方案中采用了一种更具效率的方式来进行估计。
视图选择的几何先验 :
- 该部分探讨了如何在像素级别的视图选择中融入几何先验,并有效提升了对非结构化图像的鲁棒性。
- 被建议用于从源图像中采样的前提是具备足够的基线、相似分辨率以及非斜视方向等条件。
- 该方法通过整合几何先验与每像素遮挡指标,提供了更为全面和可靠的解决方案。
- 揭示了Triangulation Prior的存在及其可能带来的视图选择模糊的结果。
