Advertisement

斯坦福cs231n学习笔记(1)------Computer Vision的历史与回顾

阅读量:

研究生入学考试刚刚结束,终于腾出了一整段时间来进行系统的神经网络学习,我对这一领域的知识始终保持着浓厚的兴趣,兴趣的确是一件值得珍视的事。准备开始撰写关于FeiFeiLi教授计算机视觉与深度学习课程的学习笔记和心得体会,希望能与大家共同进步

让我们了解一下计算机视觉的发展历程及其回顾。Computer Vision是一门研究机器如何识别、跟踪和测量目标的科学,并且还可以进行图像处理以适应人类观察或用于仪器检测的需求。以上定义源自百度百科,在我最初接触Computer Vision时并没有深入了解这一领域仅仅是表面的理解认为图片识别很简单是不是只需要编写一段代码就能解决问题呢哈哈当年还是很幼稚随着深入探索这个极具挑战性的领域我发现从其发展历程到借助CNN技术推动ImageNet的进步才让我对Computer Vision充满了好奇与探索的动力

人类进化的根源源于眼睛的发展,在此之前,在我们制造出照相机之前,在此期间,在制造出照相机之前,在此之前

一件非常有趣的事情同时也是作为"眼睛"这一器官的独特之处在于视觉神经系统位于离眼睛最远的位置与我们的耳朵相对应的是它们所处的位置较近经过大量实验与深入研究后发现给猫展示一些花或鱼的照片并不会引起它们对特定形状的好奇心当研究人员采用幻灯片的形式展示这些照片时这种做法实际上能够引发特定区域中多个神经元产生反应从而形成了所谓的边缘模型(Edge Model)

自1963年起, Computer Vision源自Larry Roberts提出的"Block World"理论,Larry Robert认为人类大脑处理视觉信息的基础在于边缘和形状.以英文表达更能准确传达这一概念,Edges define both the structural and shape elements.

1966年, MIT在校园内设立了人工智能实验室, 全面专注于计算机视觉领域的研究工作。当时, David Marr所著的经典著作《视觉》(建议有空时翻阅)中提到, 我们人类的感知系统在识别物体时, 是从一些基本而简单的几何形状开始学习, 而不是作为一个整体来处理信息, 同时这一过程具有层次性结构

第一层次主要由边缘结构(Edge Image)构成;第二层次则呈现为2.5D形态,在视觉呈现中将二维图像转换为三维空间感知;第三层次则通过整合形成完整的三维模型;这一层次结构普遍被视为视觉模型的一种表现形式

随后,在计算机视觉领域内发展出了视觉识别算法用于构建三维模型。

该方法基于Generalized Cylinder模型设想世界由基本几何形状构成,并利用这些基本形状构建三维模型;另一种方法是基于概率的Pictorial Structure模型其核心观点是将这些基本部分视为通过弹性连接的单元;进而直到20世纪90年代Computer Vision领域已不再局限于识别物体而是发展出将图像分割为具有意义的部分的方法

到目前为止, 大家对ImageNet都非常熟悉, 其中包含了500万个图像的数据集. 在2012年之前, 图像识别主要依赖于基于图像特征以及SVM的方法, 效果并不理想. 直到2012年, CNN技术被应用于图像识别领域, 开启了一个全新的研究阶段. 这一时期的准确率较之前提升了至少两倍. 而CNN并非是全新提出的技术, 它源自日本计算机科学家Kuhihiko Fukushima在1998年提出的一种理论——Neocognition. 后来由 Geoff Hinton的学生Yann Le Guen撰写的重要论文《Gradient-Based Learning Applied to Document Recognition》详细阐述了这一理论体系. 该论文共46页, 现在仍在深入研读. 论文的核心思想是通过简单的边缘检测器层层过滤图像, 实现特征提取功能: 首先执行滤波操作, 接着进行池化处理(即下采样), 重复这一过程以逐步增强特征表达能力. 在2012年的ImageNet竞赛中, 参赛者正是沿用自98年的CNN架构(仅将其中一种激活函数从sigmoid替换为relu)取得了优异成绩. 此后每年的人工智能领域竞赛冠军都在不断突破神经网络的技术瓶颈

2015年微软获得了ImageNet冠军,并采用了拥有151层的人工智能神经网络来开发深度残差网络。随着人工智能技术的进步和计算能力的发展,在处理复杂数据时能够有效防止过拟合的能力不断提升。

当前,在应用神经网络的过程中我们还面临着众多复杂的挑战,并非我们想象的那么简单。例如,在进行图像分割时会遇到密集标记问题,在进行视频分析时需要处理感知分组问题,在进行细节提取时需要确定像素的归属位置等困难的问题存在。学习、理解和研究的道路漫长而艰难。

更多关于Computer Vision的学习内容,会继续更新!

全部评论 (0)

还没有任何评论哟~