Advertisement

【文字超分辨率】Real-time Document Image Super-Resolution by Fast Matting 阅读笔记

阅读量:

Paper: Real-time Document Image Super-Resolution by Fast Matting

最近在研究文字图像的超分辨率,下载了几篇论文,准备略读一下,每篇文章写个笔记做记录。

在这里插入图片描述

Abstract

1.设计了一种基于局部线性建模的高效文档图像matting(抠图、遮罩)算法,将输入图像分解为文本,前景和背景图层,分别包含文本边缘信息,前景和背景颜色信息。
2.使用Teager过滤器对文本层进行上采样,以提高文本的清晰度。 为了提高效率,仅通过双三次插值对前景和背景层进行了上采样。
3.组合这三个高分辨率层以获得最终的高分辨率图像。 在真实扫描的文档图像上进行的实验证明了该方法在视觉感知和OCR性能方面都具有有效性。

INTRODUCTION

应用领域:print or display LR document images on HR printers or display devices. 在HR打印机或显示设备上打印或显示LR文档图像。
原始的image matting algorithm来自【S. Dai, et al., SoftCuts: A soft edge smoothness prior for color image super-resolution, IEEE Trans. on Image Processing, vol. 18, no. 5, pp. 969-981, 2009.】
以此为基础,文章设计了一种新的基于局部线性建模的实时文档matting算法,将输入文档图像分解为不同的图层。然后,使用后续的上采样策略以不同的方式扩大不同的层。 最后,通过根据matting模型合成HR层,获得HR文档图像。

IMAGE MATTING

图像遮罩(image matting):可以使用α作为权重,将自然图像I建模为前景图像F和背景图像B的加权和。
在这里插入图片描述

下图中,

(a)原始输入图像(低分辨率)
(b)alpha 遮罩层
(c)前景层
(d)背景层
在这里插入图片描述

REAL-TIME DOCUMENT IMAGE SUPER-RESOLUTION WITH IMAGE MATTING

如下图所示,文章提出的方法主要包括三个步骤,1)使用所提出的快速遮罩(matting)算法将输入文档图像分解为三层; 2)分别对每一层进行上采样; 3)组合三个HR层以生成最终的HR图像。
在这里插入图片描述

A. Matting based Image Decomposition
(1)Soft Text Layer Extraction

在提出的快速文档图像遮罩算法中,首先对输入图像IL进行阈值化处理以获得二进制文本蒙版图像A,其中文本像素分配为1,背景为0。尽管存在许多复杂的二值化算法,可用于更精确地从文档图像中提取文本像素,但文章采用了Otsus方法,因为它对于大多数实际扫描的文档图像都是快速有效的。以二进制映射图A作为输入图像,原始文档图像IL作为指导图像(guidance image),使用了一种称为“导引滤波器guided filter”【K. He, J. Sun and X. Tang, Guided image filtering, Europe Conference on Computer Vision, pp. 1-14, 2010.】的边缘保留滤波器用于提取原始文档图像的软边缘信息。

引导过滤可以使二进制文本图像(map A)变软,以近似原始文本的边缘;因为它基于满足**∇A≈∇IL** 的局部线性模型
将G表示为引导过滤器,可以按如下方式计算软文本边界层αL:
在这里插入图片描述
A:二进制映射图
IL:指导图(原始输入图像)
r、ε:引导滤波器的两个参数

下图展示了软边缘层(soft edges layer)αL:
在这里插入图片描述

(2)Foreground and Background Reconstruction

文章提出了一种基于局部线性模型的高效方法,可以从IL和αL重建前景颜色FL和背景颜色BL。 具体而言,局部线性模型是指在较小的局部窗口中,α通道可以表示为图像I的线性组合。
在这里插入图片描述
在这里插入图片描述

其中ωi是围绕像素i的小窗口,c表示第c个颜色通道,a和b是局部窗口中的常数🤯。
According to equation
(1),itiseasytoseethata= 1 ,b= B .Byminimizing F−B B−F
the reconstruction error and a regularization term, the foreground and background reconstruction can be solved by minimizing the following energy function:

从下面的公式可以看出:a = 1/(F-B),b = B/(B-F)。
在这里插入图片描述
通过最小化重构误差和正则项,可以通过最小化以下能量函数(energy function)来解决前景和背景重构:
在这里插入图片描述
式子最后一项是正则项,γ 是一个常数,通常设为0.01。

使用下面的式子解:
在这里插入图片描述
其中ωk是3×3大小的窗口, μk和σk^2是ωk中α的均值和方差,|ωk| 是本地窗口中的总像素数。 由于像素i可能涉及多个局部窗口,因此应该对在不同局部窗口中计算出的前景F和背景B求平均值,以获得最终的最终前景和背景颜色。

(3)Separate Up-sampling and Composition

前景图像和背景图像通常较平滑且信息量较小,软文本边界层包含主要的文本形状信息。 因此,我们采用不同的方案对三层进行上采样。因此,我们采用不同的方案对三层进行上采样。 对于信息较少的前景和背景图像,简单的双三次插值方法足以获得令人满意的HR前景图像FH和背景图像BH。 但是,由于双三次插值可能会产生模糊的边缘,因此应在插值之前增强软文本边界层中的边缘。 为了突出显示αL层的边缘信息,在插值之前将可以增强边缘的Teager滤波器应用于αL。 Teager滤波器是一个非线性滤波器,能够突出显示文本边缘并抑制噪声。
文本软边界层的上采样可以表示为:
在这里插入图片描述
其中β是控制清晰度的加权因子,通常设为1。

生成的HR文档图像IH可以计算如下:
在这里插入图片描述
对于边缘上的像素,其值是前景色和背景色的线性组合。 通过增强文本边界层,前景颜色和背景颜色在边缘之间的过渡变得更加生动,从而使得边缘更锐利。 由于边缘增强操作不会影响原始图像的颜色信息,因此所提出的文本图像超分辨率算法避免了通常在图像超分辨率或增强算法的结果中出现的伪影现象,例如色彩混叠和光晕。

EXPERIMENTAL RESULTS

在这里插入图片描述对原始输入图像的直接增强(Teager)和内插会导致噪声,颜色混叠和文本边缘附近的光晕。【Fig.3 (b)】确实很多噪声。Shan等人的方法(c)和文章所提出的方法(d)都很好地保留了颜色信息,但是本文的结果具有更清晰的边缘。本文的方法不会放大背景中的噪声,仍然可以产生非常清晰的文本边缘。 这是因为仅在软文本边界层中进行了增强。

更多测试结果:
在这里插入图片描述
OCR结果:
在这里插入图片描述

总结:比较传统的方法,比较直观的思路,主要的上采样方法还是双三次插值,但加了一些预处理操作(二值化、滤波等),但是,在我主观视觉看来,(c)的方法似乎还是要好一点呢🤐。

全部评论 (0)

还没有任何评论哟~