深度学习数学基础——概率论与信息论
-
前言
- 概率论学科定义
- 概率与信息论在人工智能领域的应用
-
3.1 采用概率论的原因是什么
-
3.2 随机变量的概念
-
3.3 概率分布的定义
-
3.3.1 离散型随机变量及其概率质量函数
-
3.3.2 连续型随机变量及其概率密度函数
-
3.4,边缘概率
-
3.5,条件概率
- 3.5.1,条件概率的链式法则
- 3.6,独立性和条件独立性
-
-
第3.7节:对条件概率、联合概率及边缘概率进行概述
- 第3.8节:讨论了期望、方差与协方差的概念
-
第3.8节的子标题:详细阐述了期望的数学定义
- 具体而言,在这一部分我们将深入探讨随机变量取值与其概率之间的加权平均值计算方法
-
第一部分:探讨了这些统计量在实际分析中所发挥的作用及其计算依据
- 这一环节重点分析了如何通过样本数据估算总体特征的重要指标
-
第二个子标题:深入分析了总体均值的数学表达式
- 包括其计算公式及其在统计推断中的应用基础
-
3.8.2,方差
- 方差数学定义
- 总体方差数学定义
-
3.8.3,期望与方差的运算性质
-
3.8.4,协方差
- 协方差数学定义
-
- 第3.8节:讨论了期望、方差与协方差的概念
-
3..9\ ,常见概率分布模型
- 3..9.1\ ,二项式分布
- 3..9.2\ ,多项式分布(Multinoulli 分布)
- 3..9.3\ ,标准正态(高斯)分布
- 3..9.4\ ,指数分布在描述事件发生间隔时间方面具有独特优势,并与拉普拉斯(Laplace)分布在形状上形成对比
-
3.10节讨论了常见函数的重要特性
-
在本节中阐述了关键的贝叶斯理论
-
其中最为基础的是 Bayes'法则的基本公式
-
包括贝叶斯法则的基本公式及其应用实例
-
并详细探讨了其在概率密度函数中的具体运用
-
3.12,连续型变量的技术细节
-
3.13,信息论-相对熵和交叉熵
-
前言
概率论学科定义
概率论构建为表示不确定性声明的数学框架的概率论。它不仅包含量化不确定性的方法,并被用来推导出新的不确定性(statement);同时它还包含了用于推导这些新(statement)所遵循的基本公理。这些知识广泛应用于这两个领域的研究中,并且构成了这两门学科的核心知识基础。
概率与信息论在人工智能领域的应用
在人工智能领域,概率论主要有两种用途。
- 首先, 概率定律指导了AI系统遵循其推理原理或方式, 并在此基础上开发相应的算法来进行数值求解或估计由概率论导出的表达式.
- 其次, 基于概率理论和统计方法进行理论性分析是我们评估和优化所提出的AI系统行为的有效手段.
虽然概率论能够支持我们在面对不确定性时进行合理的推断和预测 ,但信息论则使我们能够测量其内在不确定性
3.1,为什么要使用概率论
因为机器学习必须始终面对不确定的量 ,而且偶尔还需要处理随机(非确定性)的数据项;这些不确定性来源可能是多方面的。而通过概率论来量化不确定性这一理论依据,则源自于 pearl在1988年的研究工作。
不确定性有三种可能的来源:
- 所建模型反映了系统内部存在的随机行为。
- 部分观测数据缺失。
- 其中一些模型在设计时排除了无法捕捉到的部分观测信息。
3.2,随机变量
随机变量 (random variable)是根据概率分布取值的变量,并具有数值属性特征。它能够被分类为离散型和连续型两种类型。
离散随机变量包含数量上有限或可数无限的状态。这些状态不一定是整数值;它们也可能仅以名称标识而不具有数值属性。连续随机变量对应于实数值空间。需要注意的是,随机变量是对可能状态的表征;它必须与每个特定状态所对应的概率分布相联系。
我们一般常用普通字体中的小写字母来标记随机变量本身,在手写的符号中则用于标记随机变量可能取得的值。举个例子来说,在符号\textrm{x}中可以看到x_1和x_2都是它的具体体现。而在处理向量形式时,则使用\mathbf{x}作为符号;其一个可能的具体取值则用\boldsymbol{x}表示。
中文维基百科采用符号 X 来表示随机变量,并使用概率密度函数表示为 f_{X}(x);在本文的笔记中不同小节的内容会同时使用这两种符号进行混用。
3.3,概率分布
概率分布(probability distribution)表征了随机变量或一簇随机变量在各种状态下的发生概率。
如果在狭义的层面上说的话,则指随机变量的概率分布模型;拥有完全相同的概率分布模型的随机变量必定属于同一类型;在处理连续型和离散型随机变量时所采用的概率分布表达手段存在显著差异。
3.3.1,离散型变量和概率质量函数
离散型变量的概率分布可以通过概率质量函数(probability mass function, PMF 也被称为概率密度函数)来进行描述。常用大写字母 P 来表示该概率质量函数,并使用 \textrm{x} \sim P(\textrm{x}) 表示随机变量 \textrm{x} 服从这一分布。
虽然大多数情况下每个随机变量都有独特的概率质量函数(PMF),但在某些情况下一个PMF可能适用于多个随机变量。这种涉及多于一个随机变量的概率分布则被称为联合概率分布(joint probability distribution)。对于两个随机变量x和y来说,当x取值x且y取值y时的概率被定义为P(x=x, y=y);这种表示方式有时也可简化表示为P(x,y)。
如果一个函数 P 是随机变量 \textrm{x} 的 PMF,必须满足以下条件:
- P 的定义域应当限定为 \textrm{x} 中所有可能状态的集合。
- 对于所有的 x\in\textrm{x}, 不可能发生的事其发生可能性定为
0;而必定会发生的事其发生可能性则设定为1。 - 其总和等于 1 并经过标准化处理。
- 对于所有的 x\in\textrm{x}, 不可能发生的事其发生可能性定为
常见的离散概率分布族有 :
伯努利试验是一种只有两种可能结果的独立重复随机事件的概率模型。
在进行概率计算时假设每次试验抽取后将样本放回以保持独立性,并且结果仅分为两类(如成功与失败、成功与合格等)。这种假设下使用的统计模型即为二项分布。
几何概率模型描述的是某一特定事件首次发生所需试验次数的概率特征。
泊松过程可视为当试验次数趋于无穷大而成功概率趋于零时的极限情况。
对于随机变量X来说,在所有可能取值x_i之间具有相等的概率质量函数值的情况称为离散均匀分布在数学上可表示为每个x_i的概率为1/k。
3.3.2,连续型变量和概率密度分布函数
连续型随机变量的分布情况可用 概率密度函数(`probability desity function, PDF$``)来描述
常用字母变量 p 作为随机变量 \textrm{x} 的概率密度函数(PDF)的标记符;它需满足以下条件:
*p的定义域应由x的所有可能状态构成。
\forall x \in \textrm{x}, p(x)\geq 0。请注意,并无需满足p(x)不超过1。
\int p(x)dx=1
概率密度函数 p(x) 描述了落在面积为 \delta x 的极其微小的区域内的概率,则其概率值即等于 p(x)\delta x。
因此,在统计学中,通过计算概率密度函数在整个空间上的积分来确定点集的真实概率质量是一个有效的方法。值得注意的是,在涉及多维空间的情况中,则需要对相应的区域进行积分运算以获取相应的概率值。对于单变量情况而言,在区间 [a,b] 内的概率可以通过对 p(x) 在该区间上进行积分为计算结果
常见的连续概率分布族有 :
- 等概率
- 正态分布 :连续型随机变量的概率密度函数如下所示。其密度函数呈现出显著特征:具有对称钟形曲线形态(亦称钟形曲线),其中\mu代表均值参数而\sigma代表标准差参数;这一理想化的概率模型在实际应用中具有重要价值。
- 伽玛型分布
- 指数型分布在描述随机事件发生间隔时间方面具有独特作用
3.4,边缘概率
边缘概率似乎在实际应用中较少涉及,因此,在掌握其基本定义和核心概念上就足够了。
边缘概率的通俗理解描述,则来源于 数学篇 - 概率之联合概率、条件概率、边缘概率和贝叶斯法则(笔记)。
有时候,在了解一组变量的时候已经知道了它们的联合概率分布。若关注某个特定的子集,则可从中提取出该子集的概率分布在统计学中被称为边缘概率分布(marginal probability distribution)。
给定离散型随机变量 X 和 Y 以及它们的联合概率分布 P(X, Y) ,我们可以运用求和法则(Sum Rule)来推导出关于单一变量 X 的边缘概率 P(X)
\forall x \in \textrm{x},P(\textrm{x}=x)=\sum_{y}P(\textrm{x}=x, \textrm{y}=y)
"边缘概率"这一术语源于手算边缘概率这一运算过程。当我们将每个P(x,y)值放置于由不同x值对应一行、不同y值对应一列所构成的表格中时,在处理每一行数据并进行汇总运算后得到的结果会被记录于表格右侧边沿位置。
连续性变量的边缘概率则用积分代替求和:
p(x) = \int p(x,y)dy
3.5,条件概率
条件概率(conditional probability)被称为事件 A 在事件 B 发生的情况下发生的概率
令 A 和 B 是定义在样本空间 \Omega 上的两个事件,则当且仅当有已知信息表明事件 B 已经发生时,在这种情况下讨论的概率即被称为条件概率。具体而言,在给定条件下观察到的概率即为:
P(A|B)={\frac {P(A\cap B)}{P(B)}}
在花书中对条件概率的期望定义方面存在两种不同的数学表达式(尽管它们所表达的意义是相同的),其中维基百科上的定义可能更易于理解其名称的意义;相比之下,花书中的公式更多是从数学的角度进行表述
定义在给定变量x取值为x的情况下变量y取值为y的概率P(\textrm{y}=y|\textrm{x}=x)。
其计算公式如下:
P(\textrm{y}=y | \textrm{x}=x) = \frac{P(\textrm{y}=y,\ \textrm{x}=x)}{P(\textrm{x}=x)}
需要注意的是,在P(\textrm{x}=x)大于等于零的情况下才有意义,
即当分母P(\textrm{x}=x)=0时无法定义该条件概率。
3.5.1,条件概率的链式法则
任何多维随机变量的联合概率分布都可以表示为单一变量条件概率的乘积形式。这一规则通常称为概率论中的链式法则(Chain Rule)。其条件概率遵循以下规律:
\begin{align} 概率\ &$ = $ 条件概率$ $ (a | b, c)\ $ ×$ 联合概率$ $ (b, c)\ $ \nonumber \ 等于条件概率\ $ (b | c)\ $ 乘以先验概率\ $ (c)\ $ &$ =$ 联合概率\ $ (b, c)\ $ \nonumber \ 概率\ (a, b, c)\ &$ =$ 条件概率\ (s | b, c)\$ ×条件概率\ (b | c)$ ×先验概率\ (c)\$ \end{align}
3.6,独立性和条件独立性
两个随机变量 \textrm{x} 和 \textrm{y} 的概率分布函数可以表示为两个factor的乘积形式,并且每个factor仅涉及一个变量(\textrm{x} 或 \textrm{y}),我们称这两个随机变量是相互独立的
对于任意的x属于X以及y属于Y的概率空间中存在如下关系:即事件x等于特定值与事件y等于相应特定值之间相互独立
两个独立随机变量同时发生时的概率等于它们各自概率的乘积
如果涉及两个随机变量x和y的条件概率分布对于每一个给定的值都能表示为乘积形式,则称这两个随机变量在给定另一个随机变量z时为条件独立(conditionally independent)。
对于任意的x,y,z均属于\textrm{X}、\textrm{Y}、\textrm{Z}集合中,在给定\exists z\in\textrm{Z}的情况下,
随机变量x与y的联合条件几率等于它们各自单独条件几率的乘积。\quad 即:
p(x=x,y=y|\exists z\in\textrm{Z}) = p(x=x|\exists z\in\textrm{Z})\cdot p(y=y|\exists z\in\textrm{Z})
通常用符号\x与\y之间的独立关系。当给定变量Z时
3.7,条件概率、联合概率和边缘概率总结
- 条件概率(
conditional probability)就是事件 A 在事件 B 发生的条件下发生的概率。条件概率表示为 P(A|B),读作“A 在 B 发生的条件下发生的概率”。 - 联合概率表示两个事件共同发生的概率。
A与B的联合概率表示为 P(A\cap B) 或者 P(A,B) 或者 P(AB)。 - 仅与单个随机变量有关的概率称为边缘概率。
3.8,期望、方差和协方差
便于理解地,在本章中,期望和方差的数学定义主要来源于中文维基百科。
对于概率分布而言,期望值与方差或标准差被视为该分布的关键特性之一。其中期望与数学期望同义于均值。需要注意的是,在统计学中所计算的这种方差与概率论中的总体方差存在区别。统计学中的样本方差是指各观察数据与其算术平均数离差平方和的平均。其计算方式是:先求出各个数据与其算术平均数的离差平方,然后对这些平方离差求平均数即为样本方差。
3.8.1,期望
在概率论与数理统计学领域中定义,在离散型随机变量情形下其均值(或算术平均)被定义为各个观察值与其相应概率乘积之总和;进一步说明即以该变量所有可能取值为依据进行加权计算得到的结果;这种计算方式也等同于将每个取值与其发生的可能性相乘后再累加起来所得数值
期望数学定义
当随机变量 X 属于概率空间 (\Omega, F, P) 时,其期望值 \operatorname{E}(X) 被定义为
\operatorname {E}(X)=\int_{\Omega }X {d}P
并不是每一个随机变量都具有期望值, 因为上述积分有时无法求出. 当两个随机变量具有相同的分布时, 它们的均值必定相等.
假设离散型随机变量 X 的取值为 x_1, x_2, \ldots ,其对应的概率分别为 p_1, p_2, \ldots ,且各概率之和等于 1。
如果级数\sum_{i}p_{i}x_{i}绝对收敛,则其期望值\operatorname{E}(X)等于无穷多个项之和。
\operatorname {E}(X)=\sum_{i}p_{i}x_{i}
2)假设X是一个连续型随机变量,并且对应地存在其概率密度函数f(x);若该积分\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x绝对收敛,则可得出结论:X 的期望值即为
\operatorname {E} (X)=\int _{-\infty }^{\infty }xf(x)\,\mathrm {d} x
虽然是针对于连续型随机变量的情况而言,在计算其期望值的方法上与离散型随机变量并无不同之处;主要体现在将求和运算转换为积分运算。
期望值 E 是线性函数:
\operatorname {E}(aX+bY)=a\operatorname {E}(X)+b\operatorname {E}(Y)
在同一个概率空间中的两个随机变量(可以是独立的或是相关的),其中a和b为任意实数)。
- 函数 f(x) 相对于概率分布 P(x) 的均值(期望)是当 x 遵循分布 P 时 f 取值的均值。对于离散型随机变量来说,在这种情况下我们可以通过求 加权和 来计算这个均值:
\mathbb{E}_{\textrm{x}\sim P}[f(x)] = \sum_{x} P(x)f(x)
- 对于连续型随机变量而言,则需要通过 积分运算 来获得结果:
\mathbb {E}_{\textrm{x}\sim p}[f(x)] = \int p(x)f(x)dx
期望应用
在统计学领域中,在估算某变量的理论均值时,默认采用的方法通常是:通过多次观测该变量并计算这些观测值得平均数来推断其理论均值的一种常用方法。
在概率论领域中,在概率分布研究中被关注的核心属性之一即为:除了均值外还有方差或标准差等重要指标。
总体均值数学定义
一般而言,一个有限的容量为 N、元素的值为 x_{i} 的总体的总体均值为:
\mu = \frac{\sum_i^N x_{i}}{N}
3.8.2,方差
在概率论与数理统计中,方差(亦称变异数或变方)被定义为一个随机变量与其期望值之间距离的一种度量。它具体说明了一个随机变量与其均值之间的差异程度,并且是以这些差异平方的具体数值来表征其分布特征。
该指标通常被称为方差差异,并涉及三个关键组成部分:标准偏差的平方(即方差)、分布的一阶矩(矩估计理论中的一种度量)以及随机变量与其自身之间的协变性之外的因素. 通常使用的符号表示包括小写西格玛平方σ², 大写字母S², 数学运算符Var(X), 方括号形式V(X)和花括号形式V(X). 这些标记方法在统计学中被广泛采用以区分不同的计算路径.
方差作为一种衡量数据分散程度的指标而言具有显著的优势,在于相较于其他指标(例如平均差),它更加容易进行代数运算;然而其不足之处在于它的单位与原始随机变量存在差异,在此情况下标准差拥有相同的单位;因此,在完成计算后通常选择标准差来衡量数据的离散程度
方差的正平方根称为该随机变量的标准差。
由于存在两个不同的术语都被称作'方差'这一情况,在统计学领域中存在两种主要类型:一种如前所述,则基于理论概率分布计算得出;另外一种衡量标准则涉及一组观测值的具体特征属性包括:总体方差(涵盖了所有可能被观察到的数据点)以及样本方差(反映特定样本集合内的数据特性)。
方差数学定义
设随机变量 X 遵循分布 F ,即其期望值定义为 \mu = \operatorname{E}[X];则称统计量 \operatorname{Var}(X) 或者分布 F 的方差定义为其离差平方的期望值
\operatorname{E}(X) = \operatorname{E}[(X - \mu)]^2 = \operatorname{E}[X - \operatorname{E}(X)]^2
方差的表达式可展开如下:
该方差计算式可展开为:
\begin{align} \mathbb{V}(X) &= \mathbb{E}\left[ (X - \mathbb{E}[X])^2 \right] \\ &= \mathbb{E}\left[ X^2 - 2 X \mathbb{E}[X] + (\mathbb{E}[X])^2 \right] \\ &= \mathbb{E}\left[ X^2 \right] - 2 (\mathbb{E}[X])^2 + (\mathbb{E}[X])^2 \\ &= \mathbb{\textit{\textbf{\texttt{i}}}}\left[ X^2 \right] - (\mathbb{\textit{\textbf{\texttt{i}}}}[X])^2 \end{align} 也就是说,$X$ 的方差等于 $X$ 平方的均值减去 $X$ 均值的平方。 ##### 总体方差数学定义 一般而言,一个有限的容量为 $N$、元素的值为 $x_{i}$ 的总体的总体方差为: $\sigma^{2} = {\frac {1}{N}}\sum _{i=1}^{N}\left(x_{i}-\mu \right)^{2}$ 在《深度学习之花书》中对方差的定义如下:**方差**(`variance`)反映了当我们从$x$的概率分布中进行采样时所得到的数据点与该分布均值偏离的程度。换而言之,在统计学视角下,方差衡量了数据在其均值周围分散的程度有多大。具体来说,
\text{Var}(f(x)) = \mathbb{E}\left[(f(x) - \mathbb{E}[f(x)])^2\right]
其中$\text{Var}(f(x))$表示$f(x)$的经验方差。 #### 3.8.3,期望与方差的运算性质 **期望与方差运算性质** 如下:   #### 3.8.4,协方差 协方差也被称为共变异数(英语:Covariance),在概率论与统计学中用于度量一对随机变量的协同变化程度。 ##### 协方差数学定义 均值分别为 $\operatorname E(X)=\mu$ 和 $\operatorname E(Y)=\nu$ 的两个具有有穷二阶矩的实随机变量 X 和 Y 之间的协方差称为 $\operatorname {cov} (X,Y)=\operatorname {E} ((X-\mu )(Y-\nu ))=\operatorname {E} (X\cdot Y)-\mu \nu$ Covariance represents the joint variation between two variables, which differs from the univariate measure of dispersion represented by variance. 协方差大小若显著,则表明各变量数值波动较大且与各自均值的距离较远。当协方差为正值时,则表示两个变量会同时呈现较高的数值特征;若为负值,则说明其中一个变量较高时另一个会相应地呈现较低水平(反之亦然)。此外还有一些其他统计指标(例如相关系数`correlation`),它们通过归一化处理来消除各指标量纲差异的影响,在仅反映变量间相关性方面更为精确。 ### 3.9,常用概率分布 下表列出了一些常用概率分布的方差。  #### 3.9.1,伯努利分布 **二元分布** (亦称为两点分布或Bernoulli distribution),是离散概率模型中的一种基本形式,在概率论与统计学中具有重要地位。该分布以其核心特征——实验结果仅有两种可能性而得名,在纪念瑞士数学家雅各布·伯努利的理论贡献下而得名。在伯努利试验中若结果发生,则随机变量X取值1;若结果未发生,则X取值0。设其发生概率为$0\leq p\leq 1$(其中$0< p< 1$),则未发生事件的概率即为$q=1-p$。该分布具有以下关键属性: 1. 其**概率质量函数** 为: $f_{X}(x) = p^{x}(1-p)^{1-x} = \left\lbrace\begin{matrix} p \quad if \;x = 1 \\ 1-p \quad if \; x = 0 \end{matrix}\right.$ 2. 其**期望值** 为: $\operatorname {E} [X] = \sum_{i=0}^{1} x_{i}f_X(x) = 0 + p = p$ 3. 其**方差** 为: $\begin{aligned} \text{Variance of } X &\text{ is calculated as the sum from } i = 0 \text{ to } 1 \text{ of } (x_i - \mathbb{E}[X])^2 f_X(x). \\ &\text{Specifically, this evaluates to } (0 - P)^2(1 - P) + (1 - P)^2P. \\ &\text{simplifies to } p(1-p). \\ &\text{which can be written as } p\cdot q. \end{aligned}$ #### 3.9.2,Multinoulli 分布 注 #### 3.9.3,高斯分布 > 采用多种途径来描述一个随机变量是一个普遍的做法。其中最基本的方式是**概率密度函数** ,这种方法能够具体量化随机变量每个可能取值的概率大小。 > 高斯分布 `Gaussian distribution`(也称正态分布 `Normal distribution`)是一个在统计学领域具有重要地位的**广泛应用的概率模型** 。该类分布模式在自然与社会科学领域中以描述不确定的随机现象而被频繁采用。 若随机变量 $X$ 服从一个位置参数为 $\mu$ 、尺度参数为 $\sigma$ 的正态分布,记为: $X \sim N(\mu,\sigma^2)$ 则该分布的概率密度函数可表示为$f(x;\mu, \sigma) = \frac {1}{\sigma {\sqrt {2\pi }}}\;e^{-{\frac {\left(x-\mu \right)^{2}}{2\sigma ^{2}}}}$ 正态分布中的数学期望值 $\mu$ 作为位置参数对应于其位置特性;而$\sigma^2$和$\sigma$分别作为尺度参数影响了正态分布的幅度特性。 正态分布的概率密度函数呈现出典型的钟形特征(如同寺庙里的大钟一般而得名),也被称为钟形曲线。其中我们常说的标准正态分布其位置参数为零、尺度参数平方等于一(见右侧图中以红色线条表示的正是这种形态)。  在许多应用领域中,应用正态分布在很多情况下被视为一种明智的做法。 当缺乏关于某实数上的先验知识时,在难以确定合适的分布形式时,默认选择正态分布通常会是一个较好的选项,并且主要原因有两个。 第一点表明我们希望建模的大量真实情况都接近于正态分布。 第二点指出,在所有具有相同方差的概率分布中,在实数范围内表现出最大的不确定性;即当我们假设模型加入的信息量最小时。 #### 3.9.4,指数分布和 Laplace 分布 在概率论与数理统计领域中,**指数型概率分布** (`Exponential probability distribution`)作为一种连续型的概率分布在随机变量X=0处具有明确分界点(distinct boundary),其通过指示函数1_{x≥0}来限定当随机变量X取负值时的概率为零。进一步而言,在形状参数α取值为1的情况下,**伽玛型概率分布在α=1时等价于指数型概率分布** 指数分布可用于描述各种现象的时间间隔分析。例如,在旅客到达机场时、电话打入客服中心时等情况下。 若随机变量 $X$ 服从母数为 $\lambda$ 或 $\beta$ 的指数分布,则记作 $X\sim {\text{Exp}}(\lambda )$ 或 $X\sim {\text{Exp}}(\beta )$ 两者具有相同的含义,仅是 $\lambda$ 与 $\beta$ 互为倒数关系。**指数分布的概率密度函数**具体来说,则表示为: 该泊松分布的概率质量函数定义为$f(x;\lambda )=\begin{cases} \lambda e^{-\lambda x}, & x=0,1,2,\dots \\ 0, & \text{其他情况} \end{cases}$ **指数分配概率密度函数曲线** 如下所示。  ### 3.10,常用函数的有用性质 在深度学习中存在一些常见的概率分布函数, 例如 logistic sigmoid 函数: $\sigma(x) = \frac{1}{1+exp(-x)}$ logistic sigmoid函数主要用作计算伯努利分布的概率参数 $p$。 由于其输出结果在区间 $(0, 1)$ 之间,并且与$p$ 参数值的有效范围一致, 该方法具有良好的适用性。 如图所示,在附图中展示的是sigmoid函数的标准曲线。 观察图形后可以看出, 当自变量绝对值极大时(无论是正向还是负向),sigmoid函数表现出饱和特性。 这表明该函数呈现较为平坦的行为特征, 并对其输入的变化缺乏灵敏度。  `sigmoid` 函数的某些关键特性会在后续课程中非常有用,请我们注意这些特性。 $\begin{align} \sigma(x) &\text{被定义为} \frac{\exp(x)}{\exp(x)+\exp(0)} \nonumber \\ \sigma(x)\text{的导数} &= \sigma(x)(1 - \sigma(x)) \nonumber \\ 1 - \sigma(x) &\text{等价于} \sigma(-x) \nonumber \\ \end{align}$ ### 3.11,贝叶斯定理 > 本小节将概述基本概念和公式以作为理论基础,并建议读者进一步参阅教材《机器学习》以获得更加系统性的知识。 > 贝叶斯公式(英文:`Bayes' theorem`)是概率论的核心数学理论框架之一,在已知条件相关联关系下阐述某一事件发生的可能性大小。例如,在生命科学领域中存在某些疾病与生理特征之间的关联关系时,则可通过运用此方法学框架,在获得个体年龄数据后可更为精确地计算出该个体患病的概率值。 一般情况下,在事件 B 发生后发生事件 A 的概率与在事件 A 发生后发生事件 B 的概率是不同的;然而,在某种程度上存在它们之间的关系。其本质是对这一关系进行表述的一种数学框架——贝叶斯定理。它主要通过已知某些相关条件的概率来推导出另一个相关条件下的全概率模型;具体而言,则涉及这些相关的条件和边缘的概率分布情况 在概率论中作为一个基本原理,在面对所有可能的概率解释时均表现出有效性这一特点具有广泛的适用性;该定理的主要应用领域为贝叶斯推断,在统计学中被用作一种推理方法;其理论基础来源于英国数学家托马斯·贝叶斯 源自维基百科条目'贝叶斯定理'的链接地址 #### 3.11.1,贝叶斯定理公式 贝叶斯定理是关于随机事件 A 和 B 的条件概率的一则定理。 $P(A\mid B)={\frac {P(A)P(B\mid A)}{P(B)}}$ 设 A 和 B 分别是两个随机事件,则条件概率 $P(A|B)$ 定义为当事件 B 发生时事件 A 的发生概率。 在贝叶斯定理中,每个名词都有约定俗成的名称: * 在给定B发生的情况下,$P(A\mid B)$ 表示A发生的**条件几率**。它也被视为A的发生结果。 * $P(A)$ 代表A的**无条件的概率**(或边缘几率),独立于B的影响因素。 * 已知A发生时,$P(B\mid A)$ 表示B发生的**条件几率**。通常也被称作B的后验几率,并有文献将其称为特定条件下A的似然度(因为$P(B\mid A)=L(A\mid B)$)。 * $P(B)$ 表示B的**无条件的概率**。 #### 3.11.2,贝叶斯理论与概率密度函数 贝叶斯理论也可应用于概率分布领域;而贝叶斯理论与概率密度之间的关系则基于极限方法构建。 $P(\textrm{x}|\textrm{y}) = \frac{P(\textrm{x})P(\textrm{y}|\textrm{x})}{P(\textrm{y})}$ 意识到 $P(y)$ 在上述公式中出现时, 我们经常利用 $P(\textrm{y}) = \sum_{x} P(\textrm{y}|x)P(x)$ 这一规律来进行计算, 因此我们无需预先掌握 $P(\textrm{y})$ 的具体信息 维基百科上贝叶斯理论及其概率密度关系的定义为:
f(x|y) = \frac{f(x,y)}{f(y)} = \frac{f(y|x), f(x)}{f(y)}
### 3.12,连续型变量的技术细节 连续型随机变量及其概率密度函数的概念深化学习则依赖于**测度论**(`measure theory`)这一数学学科的基本内容以拓展概率理论体系。然而这些高级理论超出了本研究的文章探讨范围。《深度学习》教材对该理论的基本概念进行了较为简洁的阐述因此本笔记暂不对此进行详细记录并建议对这一领域感兴趣的读者参考该教材进一步学习 ### 3.13,信息论-相对熵和交叉熵 信息论属于应用数学、电子学和计算机科学的一个重要分支,在无线通信的发展过程中发挥了重要作用。特别是在深度学习中,则主要通过信息论的一些关键思想来表征(characterize)概率分布以及量化其间的差异程度。 信息论的核心观点指出,在一个不太可能发生的情况下发生了某种现象所携带的信息量会远大于在一个非常容易发生的情况下所携带的信息量 定义一个事件 $\textrm{x} = x$ 的自信息(self-information) 为 $I(x) = -\text{log}P(x)$ 在本文中,我们统一使用 $\text{log}$ 来指代自然对数,并以 $e$ 为底。基于此定义我们所定义的 $I(x)$ 单位被称为**奈特**(nats),即当以 $\frac{1}{e}$ 的概率观测到某个特定事件时所获得的信息量。相比之下,在其他文献中通常会采用以 2 为底的对数值来计算信息度量(单位称为**比特**(bit)或香农),而在此系统中采用的是同样的计算方式:即在用比特衡量信息时所得的结果仅仅是用奈特衡量结果的一个常数倍。 自信息仅关注单一输出内容。 我们可以通过引入**香农熵**(`Shannon entropy`)来衡量整个概率空间内的不确定性总量。 $H(P) = H(\textrm{x}) = E_{x∼P}[I(x)] = −E_{x∼P}[log P(x)]$ 另一种表述是:一个概率分布的香农熵表示遵循该概率分布所获得的信息平均值。 当我们面对同一个随机变量x时, 如果存在两个不同的概率分布P(x)和Q(x), 我们就可以通过Kullback-Leibler (KL) divergence(即相对熵)这一工具来进行计算, 以评估它们之间的差异程度: $D_{KL}(P\parallel Q) =$等于数学期望$\mathbb{E}_{x \sim p}[\log(\frac{P(x)}{Q(x)})]$同样等于数学期望$\mathbb{E}_{x \sim p}[\log P(x)-\log Q(x)]$ KL散度具有一些非常有用的特性,在其最核心的一点上是非负性的特征。当满足以下条件时:KL散度等于零,则意味着随机变量的概率分布完全一致(无论是针对离散型还是连续型的情况)。 一个相关指标与 KL 散度之间存在紧密联系的是**交叉熵**(`cross-entropy`),其具体表达式如下: $H(P, Q) = -\mathbb{E}_{\textrm{x}\sim p}log Q(x)$ 相较于KL散度而言,在计算过程中少了一个左侧项$H(P)$。可以看出,在这一过程中最小化KL散度实际上等同于最小化分布间的交叉熵损失。 该种方式基于前面所学的数学期望概念,在教材《机器学习》附录C中提供了相关公式,并更直观地理解为:
KL(P\parallel Q) = \int_{-\infty }^{+\infty} p(x)\log \frac{p(x)}{q(x)} dx
其中 $p(x)$ 和 $q(x)$ 分别表示随机变量 $P$ 和 $Q$ 的概率密度函数。 特别地,在连续型概率分布情况下,
KL(P\parallel Q) = \sum_{x} p(x)\log \frac{p(x)}{q(x)}
而对于离散型概率分布,则将积分替换为对所有可能取值求和。 `KL` 散度具有非负性且不具备对称性特性。展开式如下: $\text{KL散度}: KL(P\parallel Q)=\int_{-\infty }^{+\infty }p\left ( x \right )\cdot \log p\left ( x \right ){\rm d}x - \int_{-\infty }^{+\infty }p\left ( x \right )\cdot \log q\left ( x \right ){\rm d}x= -H(P)+H(P,Q)$ 交叉熵损失: $H(P,Q)= {\mathbb E}_{x{\thicksim} P}\left [\log Q\left ( x \right ) \right ]= -\int_{-\infty }^{\infty }p\left ( x ) · \log q(x){\rm d}x$ > > > 其中,$H(P)$ 为熵(`entropy`),$H(P,Q)$ 为交叉熵(`cross entropy`)。 > > 在信息论中,$H(P)$ 代表从概率分布 $P$ 中随机变量所获得的最大平均自信息量;而交叉熵 $H(P,Q)$ 则表示使用概率分布 $Q$ 的编码系统对来自 $P$ 的随机变量进行编码时所需的平均码长。由此可知,在这种情况下 KL 散度被定义为使用基于 $Q$ 的编码系统对来自 $P$ 的变量进行编码时所多出的信息量;显然该值非负,并且只有当 $P=Q$ 时其值才会等于零。
