Advertisement

一、什么是卷积

阅读量:

CNN基础:

要实现对图像进行高精度识别需要依赖被称为卷积神经网络的技术;然而,在计算机视觉领域中主要应用这一技术,并且其应用范围不仅限于图像处理;事实上,在语音识别方面也可以借助这种技术进行分析。

什么是卷积?

人类感知图像与计算机识别图像之间存在显著差异,在视觉呈现中表现为图像左侧呈现犬类形象,在计算视角则表现为接收一组具体数值(即像素强度分布)。当人类进行图像分类时,在面对这些数值时通常会感到无益(因为这些数据不具备直接意义),然而对于计算机而言,则是接收一组唯一输入。

当前的问题在于:当系统处理一组数据时它会计算并返回该图像属于某一特定分类的概率例如80%的概率为猫15%为狗5%为其他类别

我们人类利用猫狗的属性来区分它们,在人工智能领域中为了使计算机识别猫狗图片的不同,则要求计算机能够识别出猫与狗的区别所在。为此目的我们需要使计算机能够识别出这些不同之处并将其分类到相应的范畴中去。具体而言,在这一过程中计算机将通过对图像中的细节进行分析进而提取出这些图像的基本特性包括边缘、弧度等基础特性。这些基础特性将被进一步分析并结合后续的计算过程形成更为复杂的概念模型从而完成分类任务

由于其命名源于仿效人脑视觉处理机制的特点,CNN架构的设计灵感来自于人脑视网膜中专门负责处理边缘信息的那些局部感受器.具体而言,在人脑视网膜中存在专门分布于某些特定区域的局部细胞群,这些细胞群对外部输入信号表现出高度的选择性反应特性.例如,某些神经元仅在感知到垂直方向上的边缘变化时才会显著兴奋,而其他类型的神经元则会对水平或对角线方向的变化做出相应的反应.

CNN工作描述指的是你挑一张图像,让他经历一系列的

卷积层、

非线程层

池化(下采样(downsamping))层、

和全连接层、

最终获得结果数据。如前所述。这被视为对图像内容的最佳描述的一个单独的类别或者一组类别的概率。

什么是卷积?

卷积是将卷积核作用于特定空间内的每一个位置上,并通过在输入空间内移动卷积核来执行滤波处理所得到的新张量。

一个卷积提取特征的例子:图像的边缘检测

一个卷积核:

总结起来一句话:

卷积完成的是 对图像特征的提取或者说信息的匹配

在训练区分猫与狗的图像时,在这一过程中,卷积核会受到相应的优化和调整。经过这样的训练后,卷积核对于无关但具有特定特征的数据也会表现出敏感性,并能够产生不同的识别结果以实现图像分类的目标。

CNN架构:

卷积层 **** conv2d

非线程变换层 **** relu/sigmoid/tanh

池化层 pooling2d

全连接层 w*x +b

如果缺少这些层级结构后,则难以准确识别复杂的模式特征。这是因为信息网络中存在大量冗余数据的填充,在这种情况下模型的表现会大打折扣。换言之,在其他层级中主要承担着提炼关键信息、过滤冗杂数据的作用。通过这样的设计可以有效降低背景信息带来的干扰。

卷积层

三个参数:

ksize 卷积核的大小

strides 卷积核移动的跨度

padding 边缘填充

非线性变换层(也就是激活函数):

relu

sigmoid

tanh

池化层:

池化分为最大池化 和平均池化

全连接层:

将最后的输出与所有特征建立关联,并且我们必须采用所有特征来进行最终的判断,在此之后配合softmax函数来进行最终的分类

整体结构:

全部评论 (0)

还没有任何评论哟~