cv方向论文跟读笔记《Deep Learning》(2)
《Deep Learning》From 《Nature》
author:Yann lecun, Yoshua bengio, Geoffery Hinton
第二课时:
CNN、基于CNN的图像理解
1.卷积神经网络基础
输入信号的维度:
1D:序列和信号,包括语言信息等。
2D:平面图像、声音频谱图等。
3D:视频信号、立体图像等。
卷积神经网络的关键:
1.信号的局部连接;
2.共享权重;
3.降采样;
4.多层网络结构;
卷积神经网络主要层次结构:
卷积层:
·卷积的输出被称作 特征映射
· 卷积核 共享权重
·卷积神经网络具有 稀疏交互性
这样设计的好处:
·数组形式的数据(例如图像),局部值之间是高度相关 的,形成容易检测的各种局部图形
·图片和其他信号数据的局部统计特征具有位置不变性
池化层:
·将邻域内 语意相近 的的特征进行融合
·常见池化操作:Max-pool,Average-pool
·当前一层特征组件发生位置变化或表现变化,降低当前 蹭的表征变化。
通常将 2-3个卷积层+非线性激活函数+池化层 作为一个模块;一个模型通常包含多个这种模块。
卷积神经网络多级结构的功能:
1.图像低级特征到高级特征:边缘->纹理->组件->物体
2.接近输入的特征图:检测边缘、简单纹理
3.层次加深:语义信息提升,理解组件或物体的表征
卷积神经网络的反向传播计算和常规的深度网络计算一样简单。
卷积层和池化层来自于视觉神经科学中简单细胞和复杂细胞的经典概念。
Q1.如何计算CNN的参数量
Q2.为什么需要添加非线性的激活函数?线性的激活函数会怎样?
Q3.如果计算多层卷积、池化网络每一层的感受野?
2.经典卷积神经网络
**LeNet:**作者Yann Lecun,卷积神经网络的开山之作,用于解决手写数字识别的视觉任务。
输入:32 _32
卷积-》28_28
降采样-》14 _14
卷积-》10_10
降采样-》5 _5
级联
AlexNet:
VGG :首先采用3_3卷积
GoogLeNet
ResNet
DenseNet
3.基于CNN的图像理解
人脸识别:
·利用CNN提取人脸特征向量,与人脸库中的人脸进行判别,返回最相似的。
·FaceNet,DeepFace,SphereFace,etc.
服装识别
·利用CNN网络提取图像中服装特征,单分类或多分类完成服装属性的识别。
·DeepFashion数据集
第三课时:分布式特征表示&语言处理、循环神经网络、未来
1.上节回顾
2.分布式特征表示&语言处理
**分布式特征表示:**是深度学习的一个核心概念,发现数据之间的语义相似性。
深度网络两个巨大优势:
1.分布式特征表示体征算法重新组合学过的特征的泛化能力;
2.深度网络特征表示组成的网络能够带来例如指数级深度的其他优势。
降维 Word-embedding
·将高维向量嵌入到一个低维空间;即用分布式特征表示较短向量;较容易地分析词之间的关系;
Word2Vec:
·简单化的神经网络;
·输入是One-Hot Vector;
·Hidden Layer没有激活函数,也就是线性的单元;
·Output Layer维度 = Input Layer维度,Softmax回归;
·训练后只需要隐层的权重矩阵;
·分为CBOW和Skip-gram两种模型。
N-grams:
·在分布式标识特征学习之前广泛应用。
·纸文本或语音中连续出现的n个“部分”。
·N元语法是基于(N-1)阶马尔科夫链的一种概率型语言模型。
·“部分”通常包括:音素、音节、字母、单词或基本词组等。
·当N = 1, 2, 3时,分别称为“一元语法”、“二元语法”、“三元语法”。
·还可以用于:计算字符串距离。
3.循环神经网络
RNN:
·适用于序列化输入,如语音和语言。
·一次处理一个输入序列元素;
·维护隐单元中的“状态向量”,这个向量隐式地包含过去时刻序列元素的历史信息。
·训练过程中反传梯度在每一个时刻会增长或下降,长时间迭代后会出现梯度爆炸或消失。
·基于其网络结构和训练的特点,RNNs在预测文本中下一个字符或序列中下一个单词这两个方面具有很好的表现;
·RNNs也可以应用于更加复杂的任务中。
·一旦展开,可以把它当做一个所有层共享权值的前馈神经网络;
·理论上和经验上的证据都证明很难学习并长期保存信息。
LSTM:
·输入门、遗忘门、记忆单元、输入门;
·遗忘门:控制是否遗忘,以一定概率控制是否遗忘上一层的隐藏细胞状态。
·输入门:处理当前序列位置的输入;
·细胞状态:前面的遗忘门和输入门的结果都会坐拥于细胞状态C(t);
4.未来展望
无监督学习
·在人类和动物的学习中占据主导地位
**聚类问题:**希望在数据中发现内在的分组,比如以购买行为对顾客进行分组。
**关联问题:**想发现数据的各部分之间的联系和规则。
强化学习
机器、环境、奖赏
·通常用马尔科夫决策过程来描述:
1.机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述。
2.机器能采取的动作构成动作空间A。
3.转移函数P将使得环境从当前状态按某种概率转移到另一个状态。
4.转移到另一个状态时,环境会根据潜在“奖赏”函数R反馈给机器一个奖赏。
5.E = <X, A, P, R>
**GAN:**生成式对抗网络
·生成器
·鉴别器
5.讨论与总结
Q.你理解深度学习了吗?
作业
·复习Q
·努力理解深度学习的优势和局限性
·在Tensorflow或Pytorch等框架下尝试图像分类模型
