(笔记—深度学习):Chapter3-概率论和信息论
-
- 1- Why Probability?
- 2-随机变量
- 3- 概率分布
- 3-1 离散型随机变量
- 3-2连续性随机变量
-
4-边缘概率计算
-
5-条件概率分析
-
6-变量之间的独立性及其条件下的独立性分析
-
7-均值与数据波动程度相关联的度量,
方差衡量数据分散程度的指标,
协方差作为多变量间线性关系的重要指标 -
8-常用概率分布在机器学习中的应用
-
8.1 两点分布模型用于二分类问题的基础
-
8.2 多项式分布描述多类结果的概率基础
-
8.3 正态分布模型在连续型数据建模中的重要地位
-
8.4 指数型衰减现象建模的工具及其变形形式
-
8.5 狄拉克函数及其基于经验数据的经验分布方法
-
8.6 复杂随机过程的概率模型构建基础
- 9-有用的函数
- 10-贝叶斯规则
- 11-信息论
- 12- 图模型
概率论发展了一种量化不确定性的方法,并提供了推导新的不确定陈述的公理。在人工智能领域中具有显著的应用价值。第一:通过概率法则能够解释AI系统的推理机制;第二:我们能够利用概率论与统计方法来进行AI行为的理论分析。
概率论发展了一种量化不确定性的方法,并提供了推导新的不确定陈述的公理。在人工智能领域中具有显著的应用价值。第一:通过概率法则能够解释AI系统的推理机制;第二:我们能够利用概率论与统计方法来进行AI行为的理论分析。
- 概率论帮助我们揭示了不确定陈述及其背后的原因;
- 信息论为我们的研究提供了量化概率分布不确定性的方法。
1- Why Probability?
不确定性有三种可能的来源:
- 该系统的随机性被建模为内生特性。
- 观测数据存在信息损失。
- 模型未能充分捕捉所有相关变量及其关系。
频率派概率(frequentist\ probability):基于大量可重复试验观察该事件发生的频率作为其概率值。
贝叶斯概率(Bayesian\ probability):针对不可重复的命题运用特定置信度表征事件的可能性。
为了满足这些性质,视其为等价的概念。
2-随机变量
随机变量是可以随机取不同的值得变量,表示方式如下:
- 随机变量为 \rm{x};其取值范围为 \it{x}_i。
- 随机向量表示为 \mathbf{x};其元素为 \boldsymbol{x}_i。
3- 概率分布
概率模型(probability model)用于表征多个随机变量各自及其相互关系的各种可能状态发生的可能性程度
3-1 离散型随机变量
离散型随机变量通过概率质量函数(PMF)来描述。例如,在研究掷骰子等试验中常使用的概率质量函数即为常见的离散型分布模型。随机变量X的PMF定义为P(X),则有X ∼ P(X)表示X服从该分布。具体而言,在给定所有可能取值x_i的情况下其对应的概率值为P(x_i)
双变量概率分布 可用来描述两个随机变量之间的概率情况:P(\rm x =\it x, \rm y =\it y)
PMF需满足以下几点条件:
- P必须由所有状态构成其定义域
- 对于任意属于x的状态x_i来说, 满足0 ≤ P(x_i) ≤ 1
- 其概率之和等于1
3-2连续性随机变量
连续型变量可以通过概率密度函数(Probability Density Function, PDF)来表示。其中p用来表示该值。 该函数必须满足以下条件:
- 定义域应当为所有状态的集合
- 对于任意x_i\in{\rm x}, 均满足0\leq p(x_i), 不一定满足p(x_i)\leq1
- 满足归一化条件\int p(x)\,\mathrm{d}x=1
例:
实数区间的均匀分布用u(x;a,b)表示,x \sim U(a,b);区间的端点a,b满足$a
4-边缘概率
边际概率测度(margin \ probability \ measure)即当知道一组随机变量的联合概率分布在某个样本空间上时,在另一个较小的空间上计算该子集的概率测度。举个例子:
假设我们有一个离散型随机变量对\mathrm{x}, \mathrm{y},并且已知它们的联合概率质量函数为P(\mathrm{x}, \mathrm{y}),那么可以通过累加所有可能的\mathrm{y}值对应的联合概率来计算边际概率质量函数:
P(\mathrm{x} = x) = \sum_{y} P(\mathrm{x} = x, \mathrm{y} = y)
而对于连续型随机变量,则采用积分的方法:
p(\mathrm{x} = x) = \int p(\mathrm{x} = x, \mathrm{y} = y) dy
5-条件概率
条件概率(conditional probability)用来表示:当其他相关事件已发生时,某一特定事件发生的可能性大小。比如:
基于{\rm x}=x的情况下来考虑,在这种前提下讨论{\rm y} = y的概率,则其概率则表示为P({\rm y}=y|{\rm x} = x)。
由此可见:仅当P(x)大于零时(即P(x)>0),条件概率才有意义;而概率为零的事件不能被选作条件。
链式法则在条件概率中的应用:多个随机变量的联合分布情况表现为单一变量条件下其他变量的概率乘积。
6-独立性和条件独立性
当两个变量的联合概率等于各自概率的积时,则称这两个变量相互独立:
简化表示为: \rm x \perp y
在给定随机变量z的情况下,在各变量之间的条件概率相互独立,则被称为条件独立:
简化表示为: \rm x \perp y|z
7-期望、方差、协方差
该函数f(x)基于分布P(\rm x)计算出的期望值是指当变量x按照概率分布P(\rm x)生成时其作用结果为f(x)所呈现出来的平均值。对于离散型随机变量的情况:
对于连续性随机变量:
期望是线性的: \mathbb E(\alpha f(x)+\beta g(x)) = \alpha \mathbb E(f(x))+\beta \mathbb E(g(x))
方差 (variance)用于衡量随机变量函数值之间的差异:
协方差(covariance) 衡量两个变量线性相关的强度以及变量的尺度:
相关系数( correlation)仅能衡量变量之间的相关性,并不受变量尺度的影响:
注意:协方差与相关系数仅能衡量随机变量间的线性关系。如果Cov(x, y)=0,则仅表示两者之间不存在统计独立的可能性,并不排除存在其他形式的相关关系
8-常用概率分布
8-1 伯努利分布
伯努利分布是单个二值随机变量分布,
8-2 Multinoulli 分布
描述一个具有K个状态的随机变数,
通过向量\boldsymbol p \in [0,1]^{k-1}来进行参数化表示,
其中p_i表示每个i对应的概率值,
而第k个状态的概率则由剩下的概率决定。
8-3 高斯分布
高斯分布(gaussian \ distribution)又称为正态分布(normal \ distribution):
其中:期望值为\mathbb E[\rm x] = \mu,方差为\mathbb{V}ar[\rm x] = \sigma^2;对于未知的分布情况,默认选择正态分布通常是一个合理的选择;多维正态分布:向量x属于n维实数空间
其中协方差矩阵\boldsymbol \Sigma通常用于表示变量之间的关系。在提高计算效率时,在替代时通常采用精度矩阵\boldsymbol \beta来代替协方差矩阵\boldsymbol \Sigma并避免直接求逆运算。在简化处理时,默认情况下常假设协方差矩阵为对角阵;当需要更复杂的情况时,则假设其为各向同性的高斯分布(即单位矩阵乘以一个标量)。
8-4 指数分布和拉普拉斯分布
-
指数分布:
-
Laplace 分布:
8-5 Dirac 分布和经验分布
Dirac分布:概率分布的质量全部集中在某一点上,并且仅在离散型随机变量中才有其必要性
- 经验分布:指明数据集或是采样来源的分布。
当我们处理离散型变量时,经验分布可表示为Multinoulli形式的概率质量函数P(x)。其概率质量函数P(x)依据经验数据集中的样本频率来确定。
8-6 混合分布
P({\rm x}) = \sum_i P({\rm c}=i) P({\rm x}|{\rm x}=i)
其中P(c)表征了混合分布各组成部分的概率密度(即其组合形式),属于先验Multinoulli分布的一种表现形式。
9-有用的函数
- Sigmoid:常用于产生伯努利分布中的参数\phi

- softplus: 用于产生正态分布中的参数\beta , \sigma

有用性质:
函数\sigma^{-1}(x)被称作分对数(logit)
10-贝叶斯规则
11-信息论
信息论的核心观点是一个事件发生的可能性越小,则当它发生时所携带的信息量越大。该系统必须满足以下特性:
- 可能性较大的事件携带的信息量相对较少
- 不太可能发生的事件包含更高水平的信息
- 独立事件应包含新增的信息。例如,在连续两次抛掷硬币中出现正面的情况所传递的信息量,则是单次抛掷出现正面情况所传递信息量的两倍。
定义事件\rm x = \it x自信息:
以奈特作为单位来衡量信息量,在这种情况下一奈特等于以 1/e的概率观测到一个事件所获得的信息量。
香农熵: 它被用来量化整个概率分布所包含的不确定性,在事件发生时能够反映出系统的混乱程度。
KL散度(相对熵): 用于衡量随机变量在两个概率分布\rm P(x),Q(x)下的差异
性质:
- D_{KL}(P||Q) \ne D_{KL}(Q||P)
- D_{KL}(P||Q) \ge 0
证明:吉布斯不等式
已知 log(x) \le x - 1
交叉熵(cross entropy)
以 Q 为出发点最小化交叉熵等价于最小化 KL 散度 因为在这一过程中 Q 被排除在外 因此不会影响该计算结果
12- 图模型
该类方法可被用来描绘多维数据间的关联性。(此处采用的是贝叶斯网络的方法)

分解结果为:
无向图: 基于无向边构建了一组非概率分布构成的功能集合来完成分解。该过程主要关注于图中各节点之间的连接关系,并通过分析这些关系将图划分为多个团\mathcal{C}^{(i)} ,其中每个团内的所有节点彼此相连。每个这样的团都对应一个函数\phi^{(i)}(\mathcal{C}^{(i)}) 。如上所示:

分解结果为:
其中是归一化系数
