Advertisement

《算法面试宝典》--数学基础知识

阅读量:

深度学习技术基础课程笔记:数学基础
——向量与矩阵基础
\vec{a}(-5,6,8,10)是一个4维向量;\vec{b}是一个n维向量。
矩阵维度规则:
矩阵乘法AB要求\vec{A}的列等于\vec{B}的行;
结果矩阵C行取自\vec{A}行,列取自\vec{B}列;
k行乘n列的结果矩阵C_{k\times n}
点积公式:

a{ik}*b{kj}=c_{ij} \tag{1}

范数度量化:
向量范数:||x||p=(\sum|xi|^p)^{\frac{1}{p}}
矩阵范数:Frobenius范数为\sqrt{\sum a_{ij}^2}
张成空间与基底关系:9维空间中的一根棍子表示一阶张基底?三维空间中的一个方向代表一个基?
指标符号命名与习惯:
标准形为a^{指标}(指标);如a^i_j为第j个元素?或第i个指标?
转置矩阵转置后索引变化:(A^T){j,k}=A{k,j};对称矩阵满足a{k,j}=a{j,k};非零对角线元素排列决定了形状。
求解未知数量问题时使用的代换计算结果是否正确?通过适当的方法来处理这些问题是否正确?
正定性判断:顺序主子式全大于零→正定;存在可逆矩阵C使得C^TC等于该矩阵→正定→合同于单位矩阵E→规范形为E→标准形为单位矩阵→迹也为n→特征值全为正→行列式绝对值最大等性质成立。
二次形式判断:对于任意非零矢量x≠0,二次形式$x^TAx>0(<0)(=0)表示对应于该二次形式为正定(负定)半正定(半负定)。

第一章 数学基础

=========================

在探索深度学习的数学基础时,我们常常会遇到哪些关键问题?对于初学者而言,这些问题尤为突出.在推荐资料中往往会列出一系列相关的数学科目,包括但不限于积分学、线性空间理论、概率统计、复变函数论、数值计算方法以及最优化理论等.这些数学知识之间具有一定的关联性,但若单纯按照这种知识体系进行学习的话,将会面临较高的学习成本和较为枯燥的学习过程.本章将着重介绍一些容易产生混淆的核心概念,旨在帮助读者更好地理解这些概念之间的内在联系.

1.1 向量和矩阵

1.1.1 标量、向量、矩阵、张量之间的联系

标量(scalar)
一个标量代表一个单一的数值,在线性代数研究中与其他多维数组类别的对象相区分。我们通过斜体标记标量,并通常采用小写字母来表示这些数值变量。

向量(vector)
一个向量代表一组按照顺序排列的数据。依据数据序列中的位置信息来识别每一个数值。一般情况下,默认使用斜体小写字母来标记向量例如xx变量。其元素则以下标形式用斜体显示:记作变量X的第一个分量即为X₁;第二个分量则对应于X₂;依此类推直至最后一个分项记录于Xₙ处(n为该数据集所涉及的空间维度)。该数据集所涉及的数据类型包括实数、虚数以及其他可能类型的数值信息。

Matrix
在数学领域中,Matrix(矩阵)是由具有相同维度的对象所构成的一个二维数据表。其含义在于:每个对象在矩阵中表现为一行;每个特征则对应于一列;每一列都包含数值型的具体取值信息。通常用粗体的大写字母来表示这样的数据表格形式。例如,在线性代数中常用A来代表一个特定的矩阵。

张量(tensor) 是一种多维数据结构。
在某些情况下,当我们需要处理具有多于二维数据时,在多个维度下形成的有序网格中存储数据。
通常情况下,在多个维度下形成的有序网格中存储数据被称为 张量(tensor)。
为了方便起见,在此使用符号 A 表示该 张量(tensor)。
其中,在该坐标系下位于 (i, j, k) 位置的元素则表示为 A_{(i,j,k)}

四者之间关系

标量可以被视为0阶张量而向量则是一阶张量。举例:
了解标量的基本概念时只需要关注其数值大小而不关心其方向。
相比之下向量不仅包含了数值信息还包括其具体的方向信息。
而张量则在这些基础上进一步扩展不仅包含了大小和方向还包括其在不同维度上的变化情况。
例如除了长度和方向外它还可以描述物体在上下左右等方向上的倾斜程度。

1.1.2 张量与矩阵的区别

  • 从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排), 矩阵是二维的“表格”(分量按照纵横位置排列), 那么n阶张量就是所谓的n维的“表格”。 张量的严格定义是利用线性映射来描述。
  • 从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
  • 张量可以用3×3矩阵形式来表达。
  • 表示标量的数和表示向量的三维数组也可分别看作1×1,1×3的矩阵。

1.1.3 矩阵和向量相乘结果

采用爱因斯坦求和约定,则可将矩阵A、B相乘得到矩阵C表示为以下算式:

其中a_{ik}b_{kj}c_{ij}分别代表了矩阵A、B、C中的元素,在这里k被作为遍历变量出现两次以实现求和操作。而矩阵与向量的乘法也可以视为矩阵乘法的一种特殊情况。例如,在这种情况下,如矩阵B就是一个n \times 1的列向量。

1.1.4 向量和矩阵的范数归纳

给定向量的模(magnitude)是一个用于量化向量大小的重要指标。具体而言,在机器学习与深度学习领域中对数据进行标准化处理时会频繁使用这一概念。例如,在本节内容中我们主要关注三种常见类型的范数及其计算方法:首先是欧几里得范数(Euclidean norm),它反映了向量空间中点之间的距离;其次是曼哈顿距离(Manhattan distance),这种度量方法适合在网格状路径下计算距离;最后是极大值范数(Chebyshev norm),它取向量分量中的最大绝对值作为其大小衡量标准。这些不同的范数值在实际应用中各有侧重,在数据预处理阶段选择合适的标准化方法对于提高模型性能具有重要意义

该矢量各分量的绝对值总和即为此矢量的第一范数其计算结果为29

\Vert\vec{x}\Vert_1=\sum_{i=1}^N\vert{x_i}\vert

该矢量\vec{a}的欧几里得范数为15。

\Vert\vec{x}\Vert_2=\sqrt{\sum_{i=1}^N{\vert{x_i}\vert}^2}

矢量的负无穷范数定义为所有元素绝对值中的最小者;对于给定的矢量\vec{a}而言,其负无穷范数即为5。

\Vert\vec{x}\Vert_{-\infty}=\min{|{x_i}|}

该向量的正无穷范数定义为其各分量绝对值中的最大值:就如上述所示,对于该向量\vec{a}而言,其正无穷范数即为:其数值结果为10。

\Vert\vec{x}\Vert_{+\infty}=\max{|{x_i}|}

  • 向量的p范数:

L_p=\Vert\vec{x}\Vert_p=\sqrt[p]{\sum_{i=1}^{N}|{x_i}|^p}

矩阵的范数

定义一个矩阵A=[-1, 2, -3; 4, -6, 6]。 任意矩阵定义为:A_{m\times n},其元素为 a_{ij}

矩阵的范数定义为

\Vert{A}\Vert_p :=\sup_{x\neq 0}\frac{\Vert{Ax}\Vert_p}{\Vert{x}\Vert_p}

当向量取不同范数时, 相应得到了不同的矩阵范数。

矩阵的1范数(列范数) :矩阵的每一列上的元

首先计算矩阵中每个元素绝对值并进行累加操作,在完成所有列的累加后确定其中的最大值作为最终结果。对于该矩阵A而言,在计算其1范数时会首先求出各列元素绝对值之和的结果向量\left[5,8,9\right]。接着从这个结果向量中选取最大值作为该矩阵1范数的结果。

\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|

该矩阵A^TA的最大特征值的平方根即为矩阵A的2范数。\n\n计算得出的结果表明:该矩阵A^TA的最大特征值为(10.0623)^2=101.2544。\n\n因此,在本例中所求得的结果为10.0623

\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}

其中, \lambda_{max}(A^T A)A^T A​ 的特征值绝对值的最大值。

矩阵∞范数(即行范数) 是指对矩阵每一行中的元素取绝对值后进行累加,并从中选出最大值的过程。对于给定的矩阵A,在计算其∞范数时,
首先对每行元素进行绝对值运算并累加得到一个向量结果[6; 16]
然后找出其中的最大值即为该矩阵的∞范数值16。
该公式表明了如何通过计算每行绝对值之和的最大值来确定矩阵A的∞范数:

\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|

该矩阵的核范数即为其奇异值之和。这一数值可通过将该矩阵进行奇异值分解(SVD)来获得。值得注意的是,在此过程中我们通过最小化该范数可实现对原始数据信息的有效提取与降维处理。经运算后得到的结果为10.9287。

矩阵中非零元素的数量**(L0范数)常被用来表征数据的稀疏程度。具体而言,矩阵A的L0范数值越小,则说明该矩阵中非零元素越多;反之,则表明该矩阵越稀疏。例如,在上述例子中(见原文)**:该矩阵A的结果为6。

该矩阵的L1范数是指所有元素绝对值之和,并且其为L0范数的最优凸近似方法之一;从而也能够体现数据稀疏性。其中矩阵A的具体计算结果为:22。

弗罗贝尼乌斯范数(Fr- obenius norm) 用于度量一个矩阵的距离,在数学中被定义为将该矩阵的所有元素分别平方后再相加得到总和的基础上开平方得到的结果;这种度量方式亦被称为二阶Lp空间中的L2范数;由于其性质使其成为优化问题中一个重要的度量指标,在许多实际应用中都得到了广泛应用;值得注意的是,在本案例中通过计算我们得到了上述特定矩阵A的弗罗贝尼乌斯范数值为10.0995

\Vert A\Vert_F=\sqrt{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^2)}

  • 矩阵的L21范数 :矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵A最终结果就是:17.1559。
  • 矩阵的 p范数

\Vert A\Vert_p=\sqrt[p]{(\sum_{i=1}^m\sum_{j=1}^n{| a_{ij}|}^p)}

1.1.5 如何判断一个矩阵为正定

判定一个矩阵是否为正定,通常有以下几个方面:

  • 各阶顺序主子式均大于零;
    • 该矩阵可经由某个可逆方阵P实现与P^T相乘得到其自身;
    • 其标准型具有n个正对角线元素;
    • 其规范形等同于单位方阵E;
    • 标准型中对角线元素均为正值;
    • 所有特征值均为严格正值(即均大于零);
    • 在某组基下具有度量性质。

1.2 导数和偏导数

1.2.1 导数偏导计算

导数定义 :

The derivative (denoted as f’(x)) represents the ratio of the infinitesimal change in the function’s value to the corresponding infinitesimal change in the independent variable as Δx approaches zero. Geometrically, it corresponds to the slope of the tangent line at a particular point on the curve. From a physical standpoint, it quantifies the instantaneous rate of change at that specific moment.

注意

v=\frac{s}{t}

其中v表示平均速度,s表示路程,t表示时间。这个公式可以改写为

\bar{v}=\frac{\Delta s}{\Delta t}=\frac{s(t_0+\Delta t)-s(t_0)}{\Delta t}

其中符号Δs代表两点间的距离,在物理运动学中通常用来表示位移量;而符号Δt则代表走过这段位移所需要的时间长度。当时间间隔趋近于零(即Δt→0)时,在数学上我们称此时物体的平均速率便趋近于t_0时刻的瞬时速率,在物理学中这被称为该点处的速度值;其计算公式可简化为v(t₀) = lim_{Δt→0} (Δs/Δt) ,这种极限过程是微积分学中一个基本概念的表现形式之一

初始速度v(t_₀)等于当时间增量\text{Δ}t趋近于零时的平均速度\bar{v}。它等于时间间隔内位移增量\text{Δ}s与时间增量\text{Δ}t的比值。\par 当时间间隔趋近于零时的速度变化率为极限结果。\par 该极限计算了在t₀时刻之后的时间段内位置的变化量与该时间段长度之比。\par 当时间段趋于零时的结果即为瞬时速度v(t₀)

事实上,在上式中代表路程s对时间变量t而言,在时间点t=t_0时的导数值。通常情况下,我们定义导数为:当函数在某点附近的平均变化率趋向于某个有限值时,

\lim_{\Delta x \to 0}{\frac{\Delta y}{\Delta x}}=\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x}}

则定义该极限为函数 y=f(x) 在点 x_0 处的导数。称为fx_0处的一阶导数值,并可表示为:

  • f'(x_0)
  • 因变量相对于自变量的变化率
  • \frac{dy}{dx}\big|_{x=x_0}
  • \frac{df(x)}{dx}\big|_{x=x_0}

通俗地说,导数就是曲线在某一点切线的斜率。

偏导数 :

在讨论偏导数(partial derivative)这一概念时,请注意它必然涉及至少两个独立的自变量。让我们先考虑两自变量的情况:设z=f(x,y)表示一个二元函数。单个变量函数的求导概念发展至涉及多个自变量的情形,则形成了偏导数的思想基础。对于曲线上的某一点来说,在几何上其切线仅有一条方向可供确定。然而,在空间中的一个点上,则可绘制出无数不同的切线方向(对应不同平面)。因此,在多维空间中研究函数沿坐标轴方向的变化率即为偏导数这一核心概念。

注意:从直观角度看,在某固定位置处的一阶偏导数即反映了该位置沿着坐标轴正方向上的变化趋势

考虑函数z=f(x,y)在其邻域内有定义,在此情况下,在令y固定为y₀时,则将z视为关于x的一元函数f(x, y₀)。如果这一单变量函数在x=x₀处可导,则其关于x的导数存在,并记作\frac{\partial z}{\partial x}\bigg|_{(x_0,y_0)}

\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A

函数在某点处的极限值为A。那么我们定义,在这种情况下称该极限值为函数z=f(x,y)在点(x_0,y_0)处对自变量x的偏导数,并用符号f_x(x_0,y_0)表示这一变化率;此外还可以写作\frac{\partial z}{\partial x}\bigg|_{(y=y_0,x=x_0)}\frac{\partial f}{\partial x}\bigg|_{(y=y_0,x=x_0)}或者简记为(z)_x\bigg|_{(y=y_0,x=x_0)}

在计算过程中,在对一个变量进行偏导时(或:当计算某个变量的偏导时),我们可以将另一个变量视为常数值(或:将其暂时视为常量)。通过常规的方法进行计算(或:采用一般性的求导方法),例如对于函数f(x,y)=3x^2+xy来说,在对其关于x的一阶偏导运算中(或:当计算f(x,y)=3x^2+xyx的一阶偏导时),结果会是\frac{\partial f}{\partial x}=6x+y(或:其中y可被视为与x相关的系数)。

某点(x_0,y_0)处的一阶导数具有以下几何解释:曲面z=f(x,y)分别与平面x=x_0和平面y=y_0相交所形成的两条曲线,在点(x_0,y_0)处沿各自平面方向的切线斜率即为该点处的一阶偏导数值。

1.2.2 导数和偏导数有什么区别?

从本质上讲,在某些情况下(无论是单变量还是多变量),当自变量的变化量趋于0时(即Δx趋近于0),函数值的变化量与自变量变化量之比(即Δy/Δx)的极限就是该函数在该点的导数值(derivative)。对于单变量函数来说(例如一元函数),这个过程直接描述了其变化率;而对于多变量函数而言(如多元函数),这一概念则扩展为偏导数的概念。因此,在分析这些数学工具时,默认假设所有极限都存在并且唯一确定。

单变量函数中的每一个y值都与唯一的x值相对应;

在双变量情况下每个z值都与一对(x,y)相关联;

对于双变量情况下的变化率分别计算zxzy的变化率;

在计算偏导时需要注意,在对某一变量求导时将其他变量视为常数值;

1.3 特征值和特征向量

1.3.1 特征值分解与特征向量

特征值分解可以得到特征值(eigenvalues)与特征向量(eigenvectors);

特征值体现该特征的重要性程度, 而特征向量则描述了该特征求取的具体内容。

当某个向量\vec{v}属于方阵A时,必然能够表示为下面所展示的形式

A\nu = \lambda \nu

矩阵的每个特征向量\vec{v}都与之相关联的唯一标量\lambda称为其对应的特征值。通过矩阵的每一列空间的基底构造其对角化形式的方法称为特征值分解。

A=Q\sum Q^{-1}

其中Q是由该矩阵A的所有特征向量构成的一个方阵,在其主对角线上排列着各个对应的特征值。这些这些特定数值按照从大到小的顺序依次排列,并且每个数值都对应一个特定的方向性(主要变化方向至次要变化方向依次排列)。这些相应的 feature vectors 则代表了该 matrix 的行为模式与内在规律。这表明了该方法通过其提取的关键参数——即各阶次的权重系数——来体现系统运行状态的核心特性。

1.3.2 奇异值与特征值有什么关系

如何将奇异值与特征值对应起来呢?通过计算矩阵A与其转置矩阵的乘积,并对其结果进行特征值分解,则能够得到相应的对应关系。

(A^TA)V = \lambda V

这里V​就是上面的右奇异向量,另外还有:

\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}AV

这里的σ即为矩阵中的奇异值,在SVD分解中对应左奇异向量u

右边三个矩阵的乘积将得到一个与矩阵\mathbf{A}高度相似的矩阵,在这种情况下(当参数r趋近于n时),上述乘积结果将趋于\mathbf{A}

1.4 概率分布与随机变量

1.4.1 机器学习为什么要使用概率

事件的概率用于评估其发生可能性的大小。尽管在单次随机试验中某一事件的发生带有偶然性特征,在大量相同条件下的重复试验则会呈现出明显的统计规律性。
机器学习不仅涉及对不确定性的处理能力,在应对具有随机特性变量时也需要采取相应的策略。
概率论作为支撑现代机器学习体系的重要数学工具之一,在算法设计中扮演着不可或缺的角色。
由于机器学习算法的设计往往基于对数据分布的概率建模这一前提假设。

例如,在机器学习课程中(Andrew Ng),会有一个朴素贝叶斯假设就是条件独立性的一个实例。该算法在处理内容时做出假设以区分普通邮件和垃圾邮件。具体而言,在这种情况下(即不管 email 是否被归类为垃圾),单词 x 出现在 email 中的概率与单词 y 的出现概率相互独立。显然这一假设有失一般性 因为某些词汇通常同时出现在同一封电子邮件中 但最终结果却并未受到影响 这一简单的假设不仅能够帮助我们快速识别垃圾 mail

1.4.2 变量与随机变量有什么区别

随机变量 (random variable)

定义为,在一定条件下并不总是出现相同结果的现象被称为随机现象;其中,在所有可能的结果中取实数值的函数也被视为其组成部分。例如,在某一时间段内某公交车站等待上车的人数以及电话交换台在相同时间段内接收的呼叫次数都可被视为该类实例。
其根本区别在于:尽管前者依然存在不确定性问题(即模糊性),但后者通过更加明确的方式对这种不确定性进行了表征。

变量与随机变量的区别:
若某事件发生的概率其取值范围不在1,则该事件可被视为随机事件;若某事件发生的概率其取值范围等于1,则该事件可被视为普通事件。
若某随机现象发生的概率其取值范围等于1,则该现象可被视为普通现象。

如果变量x取值为100的概率等于1x=100就被固定下来不会再有任何变化除非进行进一步的运算。
如果变量x的取值在两个数值之间如50100并且对应于每个数值的概率分别为各自占总可能结果的一半即各占50%那么这个变量就是一个随机型的数值它会根据不同的条件表现出不同的结果。

1.4.3 随机变量与概率分布的联系

单个随机变量仅表示其所有可能取值中的每一个状态,并且必须与其相关联地设定相应的概率分布以确定各个状态出现的概率。用于描述单个随机变量或多个随机变量的所有可能取值及其发生可能性大小的方法即为 概率分布(probability distribution).

随机变量可以分为离散型随机变量和连续型随机变量。

相应的描述其概率分布的函数是

概率质量函数(Probability Mass Function, PMF):用于描述离散型随机变量的概率分布情况,并以大写字母 P 来表示。

概率密度函数(Probability Density Function, PDF):用来描述连续型随机变量的概率分布;一般用小写字母p来表示。

1.4.4 离散型随机变量和概率质量函数

PMF对应于一个随机变量的所有可取值与其相应概率之间的映射关系。

通常情况下,在数学中P(x)代表的是随机变量X取值为x的概率。为了避免混淆,在必要时应标明随机变量名称以明确其对应的概率值。在某些情况下,我们需要先定义一个随机变量,并确定其概率分布后才能讨论该变量的性质。

概率质量函数(PMF)能够同时作用于多个随机变量;即其联合概率分布(joint probability distribution)其中P(X=x,Y=y)表示事件X=x和事件Y=y同时发生的概率;也可以简化为P(x,y)

如果一个函数P​是随机变量 X​ 的 PMF, 那么它必须满足如下三个条件

  • 定义域P应当是所有可能状态的集合。
    • 对于所有属于x的元素x来说。
    • 这些性质我们称其为规范化(normalized)。

1.4.5 连续型随机变量和概率密度函数

如果一个函数p​是x的PDF,那么它必须满足如下几个条件

p的定义域必须包括x的所有可能状态。
对于所有属于Xx来说,p(x)必须大于等于零。
值得注意的是,并不要求p(x)≤1,在这里p(x)*并不是对应于该状态的具体概率(即密度),而仅仅表示一种相对大小(密度)。具体计算相应的概率值,则需要进行积分运算。

注:该概率密度函数PDF(x)并未直接提供某一特定状态x的概率。相反地,在微分区域(x, x+dx)内(此处dx表示无限趋近于零的小增量),该区域内的概率质量可被表示为p(x)dx. 因此无法精确计算某一特定状态x的概率值。然而我们可以通过积分\int_a^b p(x) dx来计算出变量x落在区间a \leq x \leq b内的累积概率.]

1.4.6 举例理解条件概率

条件概率公式如下:
P(A|B) = P(A\cap B) / P(B)
说明:对于同一个样本空间\Omega中的事件或子集AB而言,在\Omega中随机选取一个元素时属于B的情况下,则该元素同样属于A的概率被定义为在给定事件B发生的条件下事件A发生的条件概率。其文氏图示意如图1.1所示。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图1.1 条件概率文氏图示意

根据文氏图分析,在事件B发生的情况下(即已经确定发生了事件B),事件A发生的概率等于两者同时发生的联合概率P(A\bigcap B)除以单独事件B的概率P(B)

穷举法:假设其中一个是女孩,则所有可能的家庭组合包括男女、女女、女男三种情况;因此,在这种情况下另一个孩子为女孩的概率为\frac{1}{3}

应用条件概率法则:

P(\text{第二个孩子为女生}|\text{至少有一个女儿}) = \frac{P(\text{两个都是女儿})}{1 - P(\text{两个都是男孩})}

具体计算如下:

\frac{\frac{1}{4}}{\frac{3}{4}} = \frac{1}{3}

需要注意的是……

1.4.7 联合概率与边缘概率联系区别

区别主要体现在以下几个方面:
联合概率分布描述了多个随机变量同时发生特定事件的概率情况,在多元的概率分布中具有重要的应用价值。
而边缘分布则仅关注单一随机变量的概率情况,并不考虑其他变量的影响因素。
具体而言,在多元的概率模型中,我们通常会通过计算条件分布或边际化的方式来获取不同维度的概率信息;
这种处理方式能够帮助我们更深入地理解数据之间的相互关系,并为后续的统计推断提供理论支持和方法论指导。

联系:
​联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。

1.4.8 条件概率的链式法则

根据条件概率的定义可知

通过数学归纳法可知

我们可以将复杂的高维联合分布转化为一系列较低维条件下的一阶条件分布相乘的形式

1.4.9 独立性和条件独立性

独立性
两个随机变量xy的概率分布可被分解为两个因子相乘的形式,在这种分解中一个因子仅包含变量x的信息而另一个因子则仅涉及变量y的内容。由此可得这两个随机变量满足相互独立试验(independent experiments)的关系。
某些情况下可能会使原本不具有相互独立试验关系的事物之间建立起独立试验联系;与此同时也会导致原本已经保持了相互独立试验关系的一些事物在特定条件下失去这种特性。
举例而言:当给定Z时有P(X,Y|Z) \neq P(X|Z)P(Y|Z);而在事件完全互不影响的情况下有P(XY)=P(X)P(Y)即事件X与事件Y之间存在互不影响关系(independence)。此时如果再引入其他条件因素就会打破原有的这种状态。

条件独立性
在给定变量 Z 的条件下, X 与 Y 被称作 conditionally independent。
当且仅当 X⊥Y|Z 时,有等式成立: P(X,Y|Z)=P(X|Z)P(Y|Z)
这表明 X 与 Y 之间的关系并非直接存在,而是受到第三个变量的影响。

举例说明以下事件
X表示明天是否下雨;
Y表示今天的地面状况;
Z表示今天是否下雨;
Z发生后(即今天下雨)的情况下(即今天下雨),对于XY的影响关系如何呢?

1.5 常见概率分布

1.5.1 Bernoulli分布

伯努利分布在概率论中是描述单次伯努利试验的概率分布模型。
该分布由单一参数φ∈[0,1]控制。
其中:

  • 当x=1时的概率为φ;
  • 当x=0时的概率为1−φ;
  • 其概率质量函数表达式为P(x=x)=φx(1−φ){1−x}。
    其均值与方差分别为E[x]=φ、Var(x)=φ(1−φ)。
    伯努利分布在实际应用中主要用于建模只有两种可能结果的离散型随机变量。

Multinoulli 分布 也称为 范畴型分布 ,是单个 k 值随机变量的一种 分布方式 ,常用于 表示分类任务中的概率分布 。其中 k 是一个有限值。Multinoulli 分布通过向量 \vec{p}\in[0,1]^{k-1} 进行参数化表示 ,其中每个分量 p_i 表示第 i 个状态发生的概率 ,而 p_k=1-\vec{1}^T\vec{p} 。其实在这种情况下 ,我们也可以将其重新表述为 p_k=1-\sum_{i=0}^{k-1} p_i

补充二项分布、多项分布:

我们可以用一个直观的方法来理解二元概率模型:它类似于进行n次独立重复试验的概率框架。具体而言,在这种情况下,我们关注的是成功次数随机变量的概率质量函数

多项式分布(Multinomial Distribution)是对二项式分布在多于两种可能结果情况下的一种扩展。在伯努利试验中进行n次独立试验,在每次试验中只有两种可能的结果——成功或失败(成功对应一种情况)。然而,在实际应用中我们经常遇到每次试验可能会出现多种可能的情况(例如成功类型不同),这时如果仍然进行n次独立重复的试验,并假设每种结果的发生概率相互排斥且总和为1,则其中某一特定结果恰好发生X次的概率遵循多项式分布的规律。可以通过以下公式计算相应的概率:P(X=k) = \frac{n!}{k_1!k_2!...k_m!}p_1^{k_1}p_2^{k_2}...p_m^{k_m}

1.5.2 高斯分布

高斯也称正态分布(Normal Distribution),其概率密度函数如下:
N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )
其中,\mu\sigma分别表示均值与标准差;中心峰值的x坐标由\mu确定;峰的宽度取决于\sigma;最大值出现在x=\mu处;拐点位于x=\mu\pm\sigma的位置。

正态分布中,±1\sigma、±2\sigma、±3\sigma下的概率分别是68.3%、95.5%、99.73%,这3个数最好记住。

此外,在设定参数\mu=0,\sigma=1的情况下,高斯分布其简化形式即退化为标准正态分布:
其概率密度函数表示为:

N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}e^{-\frac{x^2}{2}}

而对于概率密度函数的快速计算,则有:

N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}e^{-\frac{\beta(x-\mu)^2}{2}}

其中,\beta=\frac{1}{\sigma^2}通过参数\beta∈(0,\infty)​来控制分布精度。

1.5.3 何时采用正态分布

答: 没有关于实数上分布的先验信息, 无论选择何种形式时,默认使用正态分布都不会有问题, 理由如下:

  1. 中心极限定理表明许多独立随机变量会遵循正态分布模式,在现实世界中许多复杂系统都可以通过将这些系统的噪声建模为服从正态分布的随机干扰项来进行分析和建模。
  2. 在具有相同方差的所有概率分布中 正态分布在信息熵上达到了最大值 从信息论的角度来看 这意味着在仅知道均值和方差的情况下 正态分布在不确定性方面表现最优

正态分布的扩展:
R^n空间中进行扩展后被称为多元正态分布 ,其参数包括一个正定对称矩阵\Sigma
该概率密度函数可被简化为一种高效的计算形式:

N(x;\vec{\mu},\vec{\beta}^{-1}) = \sqrt{\frac{det(\vec{\beta})}{(2\pi)^n}} \exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T \vec{\beta} (\vec{x}-\vec{\mu})\right)

值得注意的是,在上述表达式中\vec{\beta}被定义为其精度矩阵。

1.5.4 指数分布

深度学习领域中,指数分布在x=0处达到临界状态的概率上具有广泛的应用。其数学表达式明确给出如下:

p(x;\lambda)=\lambda I_{x \geq 0}\exp(-\lambda x)

通过指示函数I_{x \geq 0}确保当x<0时概率设为零。

1.5.5 Laplace 分布(拉普拉斯分布)

一种具有紧密关联性的概率分布模型是 Laplace 分布(Laplace distribution),它能够通过指定位置参数 \mu来设定概率质量的最大值位置。其概率密度函数为 Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)

1.5.6 Dirac分布和经验分布

Dirac分布能将所有概率集中于一个特定点上. Diract分布的狄拉克\delta函数(也称为单位脉冲函数)其定义如下: p(x)=\delta(x-\mu)x\neq \mu时成立.

\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b

Dirac 分布通常被视为经验分布(empirical distribution)的一个组成部分。其中,m个点x^{1},...,x^{m}构成给定的数据集,并被经验分布赋予了概率密度\frac{1}{m}。数学公式如下所示:
\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})

当基于当前训练集进行模型训练时, 经验分布表明该数据集作为采样依据提供了支持.

适用范围 : 狄拉克δ函数适合对连续型 随机变量的经验分布.

1.6 期望、方差、协方差、相关系数

1.6.1 期望

在概率论与统计学领域内,在研究随机现象时所涉及的一种重要数字特征(即均值),它是将各个实验结果与其发生的可能性相乘后所得的结果之总和。这种指标不仅能够体现数据分布的核心位置,并且在预测分析中有重要应用价值

  • 线性运算: 期望运算满足线性性质:对任意常数a、b和变量x、y,则有E(ax + by + c) = aE(x) + bE(y) + c
  • 推广形式: 对于任意常数c以及变量x_1, x_2, \dots, x_n,则有E(\sum_{k=1}^{n}{a_ix_i} + c) = \sum_{k=1}^{n}{a_i E(x_i)} + c
  • 函数期望: 设f(x)为定义在随机变量x上的函数,则其期望值为:
    • 离散函数: 当f(x)为离散型随机变量时,其期望计算公式为:

E(f_x)) = \sum_{k=1}^{n}{f_x(k)} P(k)

复制代码
* 连续函数: 对于连续型随机变量的情况,则计算公式变为:

E(f_x)) = \int_{-\infty}^{+\infty}{f_x(t)p(t)} dt

在概率论中,
变量f(x)在其取值范围内的预期值至少与f(E(x))相同(即满足Jensen不等式:E[f(x)] \geq f[E(x)])。
通常情况下,在多数情形下,
两个随机变量乘积的预期值并不等于各自预期值的乘积。
当变量之间相互独立地变化时,
它们乘积的结果也具有独立性,
即:

E[xy] = E[x] \cdot E[y]

1.6.2 方差

在概率论中,方差用于衡量随机变量与其均值之间的偏离程度;它被视为一种特殊类型的期望,并通过计算(X - \mu)^2的期望来量化这种偏离;具体来说,在概率论中被定义为:D(X) = \text{E}\left[(X - \mu)^2\right]其中\mu表示随机变量X的均值

Var(x) = E((x-E(x))^2)

方差性质:

1)变量X的方差等于其平方期望减去期望平方。
2)常数值变量具有零方差。
3)该统计量不具备线性特质。
4)当随机变量X与Y相互独立时,则ax+by之方差等于a²乘以X之方差再加b²乘以Y之方差。

1.6.3 协方差

协方差是用来度量两个变量之间线性相关程度及其尺度的指标。 根据定义, 两个随机变量的协方差为:
Cov(x,y)=E((x-E(x))(y-E(y)))

方差是一种特殊的协方差。当X=Y时,Cov(x,y)=Var(x)=Var(y)

协方差性质:

1)独立变量的协方差为0。
2)协方差计算公式:

Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)}

3)特殊情况:

Cov(a+bx, c+dy) = bdCov(x, y)

1.6.4 相关系数

相关系数用于度量变量之间线性关系的程度。两个随机变量的相关系数定义为:
Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}

相关系数具有以下性质:
1)有界性。其数值范围限定在-1到1之间,并可视为无量纲化的协方差指标。
2)数值越接近1,则表明两个变量之间的正向关联程度越强;反之,若趋近于-1,则表示负向关联程度增强;当值为0时,则说明两个变量间不存在显著的关联。

参考文献

[1]Ian,Goodfellow,Yoshua,Bengio,Aaron…深度学习[M],人民邮电出版,2017

[2]周志华.机器学习[M].清华大学出版社,2016.

[3]同济大学数学系.高等数学(第七版)[M],高等教育出版社,2014.

[4]盛骤,试式千,潘承毅等编. 概率论与数理统计(第4版)[M],高等教育出版社,2008

全部评论 (0)

还没有任何评论哟~