[深度学习与计算机视觉] 斯坦福 CS231n 2017 学习笔记 -1 (Lecture 1: Introduction;课程介绍)
[深度学习与计算机视觉] 斯坦福大学CS231n 2017年秋季学期第一讲:《Introduction to Deep Learning and Computer Vision》(课程概述)
| VIDEO |
|---|
课程介绍-计算机视觉概述
CS231n 作为计算机视觉领域与深度学习领域最具权威性的课程之一,在其教学史上始终保持着领先地位。而最近结束的 CS231n Spring 2017 则由李飞飞教授主导讲授,并邀请了包括 Goodfellow 在内的诸多知名学者对课程中的重点章节进行了深入解析。该课程从计算机视觉的基本概念入手,在奠定了分类模型、神经网络及优化算法等基础之后,着重系统性地阐述了 CNN、RNN、GAN 和 RL 等主流深度模型在计算机视觉领域的实际应用。
什么是计算机视觉呢?

主要针对视觉数据的研究领域而言,在当今信息时代中由于爆炸性增长的事实得到了充分验证。这一现象主要得益于大量先进的视觉传感器的发展成果。根据2017年的统计数据显示,在线平台已收集了约80%的内容是以视频形式存在的。因此在这一背景下我们面临的主要问题是:如何通过算法实现对这些数据的开发、理解和应用?在此过程中如果我们将视频视为互联网中的暗物质并将它们视为构成网络传输主体的关键元素则这种类比能够帮助我们更好地理解其重要性——尽管它们在数量上占据了主导地位但其计算复杂性和难以捕捉的特点仍然存在显著挑战。此外一个令人瞩目的数据显示:每3秒钟就有长达5个小时的视频内容被上传至YouTube平台这就使得仅靠人工来进行分类分析以及广告投放等内容的工作变得不再现实。基于以上现状任务的核心目标便在于研发一套系统使其能够持续地感知并深入分析这一类信息
同时计算机视觉也是一种交叉领域,在这一领域内我们需要具备扎实的光学基础,并深入研究图像如何通过光学形成。这些原理要求具备扎实的光学基础以及深入研究图像如何通过光学形成的能力。此外我们可能还需要涉及生物学与心理学的知识以解析动物如何处理视觉信息,并掌握相关的感知机制。此外这可能涵盖计算机科学与工程学的相关技术特别是在开发高效的视觉算法及其应用方面。

计算机视觉历史背景
计算机视觉历史简介
视觉从何而来,我们今天又发展到了那一步呢?

最初的生物在海洋中穿梭游动,并非具备视觉能力。然而大约5亿4千万年前发生了一个重要事件——物种数量急剧增加并形成了所谓的"物种大爆炸"现象。首次出现具有眼睛功能的动物并获得了视觉感知能力——这一成就显著地推动了此后物种的发展历程。随着时间推移随着物种的演进视觉成为了大多数生物感知环境的关键工具。
那么人类如何使机器获得这种感知能力呢?
这一技术源于照相机小孔成像原理。

与此同时,在研究视觉机制方面也存在诸多探索。
与此同时,在研究视觉机制方面也存在诸多探索。
在上世纪五六十年代,Hubel和Wiesel运用电生理学方法探究哺乳动物视网膜视杆细胞和视锥细胞的空间 organization,从而对人类与动物视觉系统的发展产生了深远影响,并间接推动了计算机视觉领域的研究进程。

计算机视觉的历史始于六十年代。
Larry将视觉世界进行了简化描述。
这一研究也被认为是计算机视觉领域的开山之作。

Marr在1982年的著作《VISION》中阐述了这一观点:为了使摄制的画面呈现出完整的三维视觉环境,必须经历一系列构建过程。
首先,需要绘制出主要的边缘线段(包括端点)、线条以及曲线等细节,这就是所谓的原始草图阶段。
其次,构建一个二维半维草图,整合这些元素包括:表面信息(surface)、深度信息(depth information)、各层结构(layers)以及视觉场景中的不连续性(discontinuities)。
最后,完成三维模型构建,将所有内容有机地整合在一起,实现物体表面及其体积结构的层次化处理。

这种思维方式在长时间以来已经深刻地影响了计算机视觉领域,另一个开创性的工作是指超越传统的块状世界来识别或表示视觉世界的对象.他们的基本思想是指每个对象都可以由简单的几何图形单元构成.

目标识别是一项极具挑战性的任务, 相比之下, 目标分割相对而言较为简单. 其主要职责便是将图像中的每一个像素精确分类到具有意义的区域中. 在当时具有很高的创新性和开创性.

在计算机视觉领域的主要突破在于人脸识别技术的发展,在这一过程中Viola & Jones团队通过Adaboost算法开发出了高精度快速的人脸探测方法,并将其迅速应用于工业界催生了专用于人脸识别的应用设备。
而探索提升目标识别性能的方法则是一个持续的研究方向,在过去的时间里这一领域的研究形成了系统性理论框架。

基于相同的基础元素(features)作为构建图像诊断特征的关键组成部分。
该领域的重要突破体现在能够识别一幅图像所处的具体场景。
例如,在计算机视觉领域中提出了一种名为空间金字塔匹配(Spatial Pyramid Matching)的方法。
该方法的核心思想在于通过分析图像的不同区域提取特征,并将这些特征综合起来形成一个全面的描述符。
通过在这一系列特征描述符上应用支持向量机模型进行分类识别。

在此领域中存在一种方法合理地在图像上构建人体姿态并识别其姿态。
这种方法称为方向梯度直方图(histogram of gradients)。
另一个称为可变形部件模型(deformable part models)的方法。

在计算机视觉领域的发展过程中,
一个亟待解决的关键问题就是
如何有效提升高质量标注数据的质量,
而PASCAL Visual Object Challenge
就是一个在该领域具有重要影响力的著名数据集,
它涵盖了20个不同的类别。

ImageNet
此外


关于CS231n
图像基本分类器

存在多种与图像分类相关的视觉识别挑战( challenges ),其中包括 object detection 和 image captioning 问题。
此外( additionally ),它还涉及图像摘要( image summarization )以及生成解释性文本( generation of explanatory text )。

Neural Network
Convolutional Neural Networks (CNN) have evolved into a valuable asset in the field of object recognition.

2012年CNN算法取得重大进展后, 卷积神经网络几乎囊括了目标识别的所有成果, 随着计算能力的大幅提升, 网络也逐渐变得愈发深邃与复杂,but Convolutional Neural Networks (CNN) were not invented overnight.
Visual Intelligence
人们对于算法仅限于识别猫狗这一类动物感到不满,而更期望它能够像人类那样捕捉到更多的细节与多样性。
面对越来越多亟待解决的开放性问题,研究者们正在不断探索新的解决方案。


