【HCIE-BigData-Data Mining课程笔记(二)】预备知识-数学基础
预备知识-数学基础
文章目录
-
预备知识-数学基础
-
一、线性代数
-
- 1.行列式及矩阵
- 2.矩阵分解
-
- 2.1 特征值
- 2.2 奇异值
-
二、概率论与数理统计
-
-
3.随机事件
-
- 3.1随机事件及其概率
- 3.2离散型随机变量及其分布
- 3.3连续型随机变量及其分布
-
4.条件概率
-
- 4.1随机向量及其分布
- 4.2条件概率-贝叶斯公式
- 4.3随机变量的数字特征
-
5.假设检验
-
- 5.1大数定律与中心极限定理
- 5.2样本与抽样分布
- 5.3参数估计与假设检验
-
6.模型分析
-
- 6.1方差分析和回归分析
-
-
三、信息论基础知识
-
-
- 6.2信息熵与基尼系数
-
-
四、最优化
-
- 7.最优化问题
-
- 7.1最优化问题
- 7.2梯度下降法
一、线性代数
1.行列式及矩阵
1.1行列式
行列式是一个将方阵映射到一个标量的函数,记作|A|。
行列式等于矩阵特征值的乘积。
行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或缩小了多少
行列式的正负表示空间的定向
行列式的计算
二阶行列式:主对角线元素之积减去非主对角线元素之积
行列式的几何意义
二阶行列式是两个二维向量的平行四边形的有向面积
1.2矩阵及其变换
矩阵的定义
矩阵:m行n列组成的数表
行数列数相等称为方阵
矩阵的运算

矩阵的描述是在线性空间中对向量运行的描述
矩阵的转置
(A^T)^T=A
(A+B)^T=A^T+B^T
(kA)^T=kA^T
(AB)^T=B^TA^T
对角矩阵
主对角线之外的元素皆为0的矩阵。
对称矩阵:转置矩阵与矩阵本身相同
正交矩阵:转置矩阵等于逆矩阵
2.矩阵分解
2.1 特征值
要求被分解的矩阵是方阵
特征值:
设A是数域K上的n级矩阵,如果K^n中有非零向量α使得 Aα=λα,且λ∈K,则λ是A的特征值,α为A的属于特征值λ的一个特征向量。
将方阵分解成为一组特征向量和特征值乘积的方阵来发现矩阵表示成数组元素时不明显的函数性质。
求解特征值:|A-λI|=0称为A的特征方程,λ为特征方程的解,即特征根,将特征根λ代入Aα=λα即可求得特征向量α。
矩阵乘法是对向量进行旋转、压缩。
如果矩阵作用于某一个向量或某些向量使这些向量只发生伸缩变换,不对这些向量产生旋转及投影的效果,那么这些向量就称为这个矩阵的特征向量,伸缩的比例就是特征值。
特征分解
设A有个线性无关的特征向量α1,α2,...,αn,相对应的特征值λ1,λ2,...,λn,则A的特征分解为:A=Pdiag(λ)P^-1,其中P={α1,α2,...,αn},λ={λ1,λ2,...,λn}
特征值分解的应用
在线性空间的角度看,特征值越大,则矩阵在对应特征向量上的方差越大,信息量越多
在最优化中,矩阵特征值的大小与函数值的变化快慢有关,在最大特征值所对应的特征方向上函数值变化最大,也就是该方向上的方向导数最大
在数据挖掘中,最大特征值对应的特征向量上包含最多的信息量。如果某几个特征值很小,说明这个方向上的信息量很小,可以用来降维的算法杀出小特征值对应方向的数据,只保留大特征值方向对应的数据,这样做可以减小数据量,同时保留有用信息。
2.2 奇异值
对于要分解的矩阵没有特殊要求
奇异值分解
概念:将矩阵分解为奇异向量和奇异值。可以将矩阵A=(aij)mxn分解为三个矩阵的乘积:A=UΣV^T
其中U=(bij)mxm,Σ=(cij)mxn,V^T=(dij)nxn.矩阵U和V都为正交矩阵,矩阵U的列向量称为左奇异向量,矩阵V的列向量称为右奇异向量,Σ称为对角矩阵(不一定是方阵),Σ对角线上的元素称为矩阵A的奇异值,奇异值按从大到小的顺序排列。
奇异值分解的应用
在机器学习和数据挖掘领域,有很多的应用都与奇异值相关,比如做特征减少的主成分分析(PCA)和线性判别分析(LDA),数据压缩(以图像压缩为代表)算法,还有做搜索引擎语义层次检索的LSI(Latent semantic indexing)
奇异值分解的几何意义
奇异值分解可以理解为在原空间内找到一组正交基vi通过矩阵乘法将这组正交基映射到像空间中,其中奇异值对应伸缩系数。
奇异值分解将原本混合在一起的旋转、缩放和投影三种作用的效果分解出来了
奇异值分解和特征值分解的区别
奇异值分解适用于所有矩阵;特征值分解只适用于方阵
特征值分解和奇异值分解都是给一个矩阵找一组特殊的基,特征值分解找到了特征向量这组基,在这组基下该变换只有缩放效果。而奇异值分解则是一组基,将变换的旋转、缩放、投影三种功能独立地展示出来。
奇异值都是非负的,而特征值可能是负的。
线性变换
待补全
向量空间
设V为n维空间向量的集合,如果集合V非空,且集合V对于向量的加法及乘法两种算法封闭,那么就称集合V为向量空间。
所谓封闭,是指在集合V中可以进行向量的加法及乘法两种运算
二、概率论与数理统计
3.随机事件
3.1随机事件及其概率
概率论与数据挖掘
数据挖掘是在海量的数据中归纳、总结、分析数据的内在规律。
概率论与数理统计是研究数据分布与如何处理数据的学科,在数据挖掘中的应用提高了数据挖掘的精度与效率。
随机试验
满足以下三个特点的试验称为随机试验
可以在相同的条件下重复进行
每次试验的结果不止一个,并且能事先明确试验的所有可能的结果
进行一次试验之前不能确定哪一个结果会出现
样本点、样本空间、随机事件
样本点:随机试验的每一个可能的结果成为样本点,表示为e
样本空间:随机试验E的所有可能的结果组成的集合,记作S
随机事件:在样本空间S的任一子集A。属于事件A的样本点出现,则称事件A发生。特别的,仅含一个样本点的随机事件成为基本事件
频率与概率
频率:在相同的条件下,进行n次试验,在n次试验中,事件A发生的次数nA称为事件A的频数。比值nA/n称为事件A发生的概率,并记作fn(A)
概率:设E为随机试验,S是样本空间,对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率,如果结果函数P(*)满足下列条件:非负性、规范性、可列可加性
概率是理想值,频率是实验值。
3.2离散型随机变量及其分布
随机变量
表示随机试验各种总结果的实值单值函数
离散型随机变量与分布律
离散型随机变量:随机变量的全部可能取到的值是有限个或可列无限个
分布律:设离散型随机变量X的所有可能取值为xk(k=1,2,...),X取各个可能值的概率,即事件{X=xk}的概率,P(X=xk)=pk,k=1,2,...
由概率的定义,pk>0 且 所有情况的概率加起来为1
特殊离散分布-伯努利分布
伯努利分布(0-1分布,两点分布,a-b分布):设随机变量x可能取0与1两个值,它的分布律是P(X=k)=p^k(1-p)^(1-k),k=0,1 (0<p<1),则称X服从以p为参数的伯努利分布
伯努利分布主要应用于二分类问题
特殊离散分布-二项分布
n次独立重复试验,将试验E重复执行n次,若各次试验的结果互不影响,则称这n次试验是相互独立的
满足如下条件可称为n重伯努利试验
每次试验都在相同条件下运行,每次试验只有两个可能的结果,每次试验的结果都相互独立

特殊离散分布-泊松分布

泊松分布其实描述的就是当n趋近于无穷大时的二项分布。
描述的是在某一个时间段某一事件具体发生的概率,
泊松分布与二项分布的关系与应用
●泊松分布与二项分布的数学模型都是伯努利概型,泊松分布式二项分布当n很大p很小时的近似计算
●N重伯努利分布为二项分布,二项分布的极限是泊松分布,泊松分布的极限为正态分布
●泊松分布和二项分布在生活中也应用非常广泛,主要评估发生的概率或次数,
3.3连续型随机变量及其分布
分布函数
概念:设X是一个随机变量,x是任意实数,F(x)称为X的分布函数 F(x)=P{X<=x} -∞<x<∞
性质:
F(x)是一个不减函数
0≦F(x)≦1,x-> -∞ F(x)=0, x-> ∞ F(x)=1
F(x)是右连续的
意义:如果将X看做数轴上随机点的坐标,那么分布函数F(x)在x处的函数值就表示X落在(-∞,x]上的概率
连续型随机变量与概率密度函数
特殊分布-正太分布

特殊分布-指数分布

4.条件概率
4.1随机向量及其分布
随机向量
在实际应用中,经常需要对所考虑的问题用多个变量来描述,我们把多个随机变量放在一起组成向量,称为多维随机变量或随机向量
定义:X1(ω)、X2(ω)、...Xn(ω)是定义在同一个样本空间Ω={ω}上的n个随机变量,则称X(ω)=(X1(ω),X2(ω),...,Xn(ω))为n维随机变量或随机向量
联合分布函数
对任意的n个实数x1,x2,...,xn,则n个事件{X1≦x1},{X2≦x2},...{Xn≦xn},同时发生的概率为F(x1,x2,...,xn)=P(X1≦x1,X2≦x2,...,Xn≦xn),称为n维随机变量的联合分布函数
二维联合分布函数的几何意义
F(x,y)=P(X≦x,Y≦y) 表示随机点(X,Y)落在以(x,y)为顶点的左下方无穷矩形的区域的概率,则称(X,Y)为二维离散随机变量。称pij=P(X=xi,Y=yi)为(X,Y)的联合分布列
联合分布列
如果二维随机变量(X,Y)只取有限个或可列个数对(xi,yj)
联合概率密度

常用多维分布-二元正态分布

4.2条件概率-贝叶斯公式
条件概率、贝叶斯公式


独立性和条件独立


4.3随机变量的数字特征


5.假设检验
5.1大数定律与中心极限定理
大数定律

当实验次数足够多,随机变量序列的平均取值必然收敛于数学期望的平均取值。
大数定律可分为伯努利大数定理,切比雪夫大数定理,马尔可夫大数定理。不同的大数定理的差别只是在于不同的随机变量序列
大数定律证明了随着试验次数n增加,事件发生的频率越来越接近其概率
中心极限定理
误差的产生是由大量微小且独立的随机因素叠加而成的。
中心极限定理就是就是研究独立随机变量和的极限分布为正太分布的问题。


●只有当n充分大时,Zn才近似服从标准正太分布N(0,1),而n较小时,这种近似不能用。
●在中心极限定理中,所谈及的一切条件可以非正式的概括为:在总和中的每个单独的项为总和的变化提供了一个不可忽视的量,而每一个单独的项都不可能给总和做出很大的贡献
●中心极限定理证明了一系列相互独立的随机变量的和的极限分布为正太分布,揭示了大部分的社会经济现象表现为正太分布的本质原因。
大数定律告诉我们:当实验次数足够多时,事件发生的频率就会收敛于期望值。
中心极限定理告诉我们:最终的概率分布服从于正太分布
5.2样本与抽样分布
现实生活中,我们不可能对整体进行处理,而是按照随机原则,抽取一部分样本,根据样本对整体进行判断。
基本概念:


各种抽样方法:

5.3参数估计与假设检验
统计方法
描述统计:如何客观的反应数据
推断统计:如何根据样本数据推断整体数量特征
参数估计:模型已知,参数未知。
假设检验:
参数估计:
总体分布形式已知,而其中几个参数未知。估计未知参数的方法为点估计和参数估计。
点估计和区间估计:二者的相同点都是基于一个样本做出估计,不同点是点估计只提供单一的估计值,而区间估计在点估计的基础上还提供了一个误差界限,给出了取值范围(置信区间)
点估计
借助总体的一个样本,构造适当的样本函数估计总体未知参数的值的问题称为参数的点估计
极大似然法

极大似然估计的目的:利用已知的样本结果,反推最优可能导致这样结果的参数值
假设检验
为了推断总体的某些未知特性,提出某些关于总体的假设。根据样本对所提出假设做出接收还是拒绝的决策称为假设检验。
假设检验的基本思想是小概率反证法思想。反证法思想是先提出假设,再用适当的统计方法确定假设成立的可能性大小,若可能性小,则认为假设不成立,若可能性大,则不能认为假设不成立
6.模型分析
6.1方差分析和回归分析
方差分析和回归分析是统计学当中非常重要的两种分析方法
方差分析:Analysis of Variance 用于两个及以上均数差别的显著性检验,即检验某个因素(自变量)对总体(因变量)是否有显著影响,虽然我们关注的是均值,但是需要借助方差判断均值之间是否有差异。
回归分析:regression of analysis确定两种或两种以上变量之间互相依赖的定量关系的一种统计分析方法。回归分析得到的是因变量和自变量之间更精确的回归函数关系
两者关系:
方差分析给出自变量和因变量是否相互独立的初步判断,不需要自变量的具体数据,只需要因变量的观察数据。
在不独立即相关的条件下,自变量和因变量到底是什么样的关系类型,则需应用回归分析作出进一步的判断,此时需要自变量和因变量的具体数据,得到他们之间的回归函数关系式。
三、信息论基础知识
6.2信息熵与基尼系数
信息量
信息论是应用数学的一个分支,主要研究的是对一个信号包含多少信息进行量化
信息论的基本思想是小概率事件比大概率事件能提供更多的信息
定义一个事件X=x的信息量I(x)应满足以下条件

信息熵
信源含有的信息量是信源发出的所有可能消息的平均不确定性。
信息论创始人香农把信源所含有的信息量称为信息熵Entropy,是指数据分区D所含信息量的统计平均值,对D中m个元组分类的信息熵计算如下

基尼系数
基尼系数是一种与信息熵类似的特征选择的方式,可以用来表示数据的不纯度。

四、最优化
7.最优化问题
7.1最优化问题
一般包含三个步骤:决策、目标、约束

我们将f(x)称为目标函数或准则,当对其进行最小化时,我们把它称为代价函数,损失函数或误差函数。
如果除目标函数以外,对参与优化的各变量没有其他函数或变量约束,则称为无约束最优化问题,反之称为有约束最优化问题。

无约束最优化问题
求解方法主要有解析法和直接法。
解析法:
根据无约束最优化问题的目标函数的解析表达式,给出一种求最优解的方法,主要有梯度下降法,牛顿法,拟牛顿法,共轭方向法和共轭梯度法。
直接法:
通常用于当目标函数表达式十分复杂或写不出表达式的情况。通过数值计算,经过一系列迭代过程产生点列,其中搜索最优点。
7.2梯度下降法
凸函数




