Image Segmentation-based Multi-focus Image Fusion through Multi-scale Convolutional Neural Network
基于图像分割的方法结合多焦点图像融合技术实现图像去模糊
一、概述
该文章采用图像分割为基础的方法来进行多焦点图像融合。该文章在2017年发布,并在同一年度发表于与CNN Fuse论文相同的一期刊物上。从内容来看似乎是针对CNN Fuse的一种改进型方案。总体而言,在思路上与CNN Fuse存在相似之处;但关键创新在于引入了多尺度的概念。
二、多尺度卷积模型
1、算法总体流程


通过多尺度卷积网络对输入图像进行特征提取
随后生成与输入图像尺寸一致并包含焦点与模糊信息的特征图
随后将提取的特征图采用阈值0.9进行二值化处理得到二值图
其中形态学变换主要负责去除小区域噪声
随后对经过形态学处理后的图像应用分水岭算法及其他后处理手段得到最终决策图
基于最终决策图为待融合图像分配权重系数并完成图像融合
2、多尺度卷积网络实现
- 多尺度提取

多尺度提取按照以下步骤执行(文中取T=3):
(i)研究者设定三个不同尺度的窗口(分别为16\times 16、32\times 32和64\times 64),并以输入图像中每个像素为中心提取这些区域(对于一个m \times n大小的原始图像而言,则总共需要提取m \times n \times 3个区域)。
ii. 将这些较大尺寸的区域进行分辨率缩减至16\times 16;
iii. 将得到的小尺寸块分别进行90°/180°翻转等预处理;
iv. 最后将上述预处理后的数据输入网络进行训练。(这部分图像是否具有标注数据?文章中并未明确说明。)
- 卷积网络网络训练思路
研究者指出将多焦点图像融合视为一种二值分割问题。基于此假设,在本研究中所设计的卷积神经网络模型旨在实现以下目标:
对于同一区域内的图像对{Pa,Pb}(其中Pa和Pb分别表示两个焦点位置),通过设计一个输出值限定在0到1之间的CNN网络模型,在经过充分训练后其输出结果应当满足以下条件:当Pa为聚焦区域而Pb为失焦区域时,网络输出值应接近于1;反之亦然(即当Pb为聚焦区域而Pa为失焦区域时)。这种训练思路与现有方法如CNN Fuse具有高度相似性。
文中未涉及T个CNN网络是否共享参数的问题仅提及其架构一致,参数不应共享。其具体架构如下所示:

此处的Mc对应算法总流程中M1-MT中的一个。
3、Inter fusion


4、后处理
采用阈值为0.9的二元化处理
通过形态学变换对特征图中面积小于输入图像百分之一的小区域进行去噪处理
进一步应用分水岭算法推导出最终决策图
5、融合

其中F为融合结果,S为最终决策图,A与B为两张待融合图像。
三、算法结果评估
作者对比了另外四种方法:MWGF、SSDI、CNN Fuse、DSIFT,结果如下:
- 主观评估



- 客观评估

