CNN+Depth estimation
1 - AlexNet 和 VGG-Net
CVPR 2015 年大致可以被视为深度学习领域的"一年"。
约70%的研究文章聚焦于深度学习领域。
会议邀请了两位 Keynote Speakers:计算机科学家 Yann LeCun(纽约大学/Facebook)以及心理学家兼神经科学家 Jack Gallant(伯克利)。
Yann被誉为卷积神经网络(CNN)的主要创始人之一。
而Jack则因其在神经科学领域对深度学习技术抱持积极态度而闻名。
他通过实验展示了卷积神经网络不同层级与视觉皮层不同层级之间的相关性。
显然,在工程与科学领域中都出现了重大突破。
不过由于CVPR是一场以工程为导向的专业会议,
我们就聚焦讨论过去两年中深度学习在工程领域的进展。
在过去的十年里
AlexNet 和 VGG-Net 的起源与卷积神经网络架构
AlexNet 是一种典型的卷积神经网络(CNN),由五个卷积层、两个全连接层以及一个分类层(共1000个节点)构成。2012年,深度学习领域的顶尖学者Geoffrey Hinton教授的学生Alex Krizhevsky开发了一种包含8个卷积层的深度CNN,并将其应用于ImageNet图像分类任务中。这一创新性工作不仅显著提升了当时最先进的分类算法的表现水平,在学术界引起了强烈的关注。这篇题为《基于深度卷积神经网络的ImageNet分类》的文章
标志着深度学习技术在计算机视觉领域的正式认可成为转折点。由此后人们将这种8层CNN命名为AlexNet。

另一种基于CNN的技术被称为VGG-Net,在由Andrew Zisserman教授所著的经典论文中首次提出(Oxford大学小组)。该网络在ILSVRC的大规模图像识别比赛中,在定位和分类两个关键任务中分别获得了第一名和 runner-up 的优异成绩。其主要区别在于:首先,在网络深度上远超AlexNet仅有的8层结构设计(通常包含16至19层神经网络结构);其次,在卷积层的设计上采用了统一尺寸的滤波器(所有卷积层均采用3x3大小)。
在AlexNet和VGG-Net网络中,在于它们能够有效地捕捉图像的整体空间信息。
这些中间卷积层不仅能够提取局部空间表征(local spatial patterns),而且通过全连接层的学习能力进一步增强了模型对整体图像的理解能力(global understanding)。
值得注意的是如果一个仅由卷积神经网络构成的模型想要处理不同尺寸的输入图像则需要先进行归一化处理;但一旦引入全连接层则需要固定输入尺寸以避免计算复杂度的变化带来的性能下降。
近年来在CVPR等顶级会议中出现了大量采用经过卷积过滤后的中间卷积层作为局部表征的研究
2 - deep learning在计算机视觉各个子领域的应用
深度估计与法向量估计(depth and normal estimation)。对于拥有 stereo image pair 的情况而言,并不困难。然而,在仅凭单张影像推断出 depth 或者 normal 时,则面临挑战。即使具备大量训练数据以及一些约束条件(如消失点、正交表面等),这一任务仍可实现。2014年Rob Fergus的学生提出了一种创新方法:将depth和normal estimation视为一个回归问题,并通过强大的多层感知机(CNN)进行端到端训练(参考原文:Depth map prediction from a single image using a multi-scale deep network)。文中采用了多尺度深度网络架构:粗粒度尺度网络能够基于整体场景生成全局的depth map;随后将此overall depth map与原始图像一起输入精细尺度网络中进行进一步优化。由此可见,在应用了复杂的深度架构之后,默认情况下depth/normal estimation问题已简化为回归问题,并且数据量越大效果越佳。近年来在CVPR会议上,CMU教授Abhinav Gupta团队也致力于从单一图像推断surface normal的工作。他们的基本思路与上述研究一致,但将其归类为分类问题而非回归问题。具体而言,在他们的研究中同样采用了两个不同的网络模型:coarse & fine。
Image Classification技术的发展得益于其在图像分类领域的快速发展。
Image Segmentation
