论文笔记:Document image dewarping using text-lines and line Segments
1 核心思想
论文:Resilient Document Image Dewarping Approach Using Text-Lines and Line Segments
论文:Document Dewarping through Text-line based Optimization Techniques
代码:https://github.com/taeho-kil/Document-Image-Dewarping

传统的基于文本行的方法在处理复杂布局或仅有少量文本行时会遇到挑战。 当图像中几乎找不到对齐的文本行时 , 这往往会导致照片 、图形或表格占据输入信息的主要部分 。 为了实现可靠的文档去扭曲 , 我们推荐在对齐文本行的同时 , 也利用图像中的线条特征 。 根据所有变换后的线条均为直线这一假设 (即线到线映射 ) , 并考虑到其中许多线条在良好校正后通常呈水平或垂直排列 , 除了针对单个文本行的成本计算外 , 我们可以通过最小化目标函数来确定相机姿态 、页面曲线(外参数)以及相机焦距(内参数)等校正参数 。 针对某些情况下的线条方向异常或未被识别的文本组件 , 整体算法采用了迭代优化的方式 。 在每一步迭代中 , 我们会剔除那些难以满足水平或垂直对齐条件的组件 , 然后利用更新后的数据重新计算最优解以最小化目标函数 。 实验表明 , 所提方法展现了广泛适用性 。 此外 , 该方法不仅适用于平面文档处理 , 还能够扩展至一般曲线表面以及复杂文档场景
1.1 两条线段属性

1.2 直线度特性
该属性用于描述从曲面文档图像中提取出的一系列线段,在经过矫正域处理后这些线条仍然保持直线状态(尽管在某些情况下矫正后的图像可能显示出曲线)。其含义即为线与线之间的映射关系。值得注意的是由于该属性适用于所有平面间的映射操作因此在仅基于相机视角(如单应性)进行校正时它并不构成限制因素;然而当我们综合考虑页面曲线以及相机视角的影响时这一特性便成为了防止线条变形的有效保障。
1.3 对齐属性
基于大部分线段在校正后的图像中水平或垂直对齐的观察。
1.4 异常值去除
受离群值影响, 方程直接优化可能导致校正效果不佳. 识别并处理两种类型的异常数据: 缺失文本行和具有任意方向(非水平/垂直)的线段. 开发了一种迭代程序用于异常数据去除. 在每个步骤中, 通过移除那些难以对齐的数据项来优化特征 (文本组件与线段), 并使用更新后的离群数据最小化成本函数.

