【AA】统计学习总结
Chapter1.描述性统计量计算过程
1.什么是随机试验?试举例说明。
满足以下 三个条件的试验称为随机试验: 1. 可以重复进行; 2. 不能预知结果 ;3. 知道所有可能的情况。
随机试验的例子有:1 .投硬币,掷骰子 ;2 .射击命中; 3 .身高、体重 。
2.什么叫做样本空间?什么叫做样本?
样本空间就是特定随机试验所有可能结果所组成的集合。样本空间又叫做总体。样本是总体中所抽取的一部分个体。
3.什么叫做随机事件?什么叫做必然事件?对立事件是否等价于互斥事件?
样本空间的子集称为随机事件。 必然事件就是以概率1发生的事件。对立事件与互斥事件是两个不同的概念,对立事件是“有我没你”,而互斥事件是指不同时发生的事件。对立事件一定是互斥事件,但互斥事件不一定是对立事件。
4.什么叫做概率?
概率——刻画随机事件出现可能性的指标。
5.什么叫做古典概型?

6.有哪些常见的统计分布?
离散型分布:两点分布,二项分布,泊松分布 。
连续型分布:均匀分布,指数分布,正态分布 。
注:对于某一特定场景,其所符合的分布规律一般先验给出 。
7.什么是泊松分布?

8.什么是指数分布?

9.什么是大数定律?什么是中心极限定理?大数定律和中心极限定理有什么重要的意义?
大数定律说的是当样本量充分大时,样本的统计量趋近于总体的统计量,比如样本均值趋近与期望,频率趋近与概率等等。在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。
中心极限定理 是 概率论 中讨论 随机变量 序列部分和的分布渐近于 正态分布 的一类定理。这组定理是数理统计学和 误差 分析的理论基础,指出了大量随机变量积累分布函数逐点收敛到正态分布的积累分布函数的条件。
Chapter2.假设检验
1.假设检验有哪几步?



2.不能否定原假设,是不是意味着原假设一定是正确的?
不是。不能否定原假设,指的是在给定的置信水平下,没有找到充分的理由来拒绝原假设,只是没有找到充分的理由,不一定说明原假设就是正确的。
3.什么是t分布?


4.t检验法能做什么?
t检验能做单样本的均值检验(方差未知时)。如下例:

5.t检验有哪些类型?
单样本t检验 点击查看
配对t检验 点击查看
两独立样本t检验 点击查看
注意:T检验的正态假设前提。
6. 关于秩。
适用场景:不能确定总体分布,明显的偏态(非正态)。
原理:把原始数据排序,然后按排名给予序号(秩)。
薛毅书p298秩统计量一节 。


7.秩和检验是在检验什么东东?
用秩和检验可以检验两个总体的分布函数是否相等的问题。更多信息请见 秩和检验 。
8.什么是斯皮尔曼等级相关分析?
斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”。更多信息请点击。
9.什么是符号检验法?
符号检验法是通过两个相关样本的每对数据之差的符号进行检验,从而比较两个样本的显著性。具体地讲,若两个样本差异不显著,正差值与负差值的个数应大致各占一半。
符号检验与参数检验中相关样本显著性t检验相对应,当资料不满足参数检验条件时,可采用此法来检验两相关样本的差异显著性。
10.什么是Wilcoson符号秩检验?

11.两样本的Wilcoxon秩和检验 。
由Mann,Whitney和Wilcoxon三人共同设计的一种检验,有时也称为Wilcoxon秩和检验,用来决定两个独立样本是否来自相同的或相等的总体。如果这两个独立样本来自正态分布和具有相同方差时,我们可以采用t检验比较均值。但当这两个条件都不能确定时,我们常替换t检验法为Wilcoxon秩和检验。
Wilcoxon秩和检验是基于样本数据秩和。先将两样本看成是单一样本(混合样本)然后由小到大排列观察值统一编秩。如果原假设两个独立样本来自相同的总体为真,那么秩将大约均匀分布在两个样本中,即小的、中等的、大的秩值应该大约均匀被分在两个样本中。如果备选假设两个独立样本来自不相同的总体为真,那么其中一个样本将会有更多的小秩值,这样就会得到一个较小的秩和;另一个样本将会有更多的大秩值,因此就会得到一个较大的秩和。
Z值

例子


组1和组2的秩和(Sum of Scores)分别为96.50和56.50。原假设(组1和组2的总体分布相同)为真时,期望秩值(Expected)分别为(96.50+56.50)×9/(9+8)=81.0和(96.50+56.50)×8/(9+8)=72.0,标准差(Std Dev)按公式(28.6)计算为10.3795614。每组平均得分(Mean Score)分别为96.50/9=10.7222222和56.50/ 8=7.0625000。Wilcoxon两样本秩和统计量(较小的秩和)S = 56.5000,正态近似检验统计量Z = -1.44515(连续性修正因子为0.5,加在分子上),正态分布的双尾p值之和为0.1484,不能拒绝原假设。同时还给出了近似t检验和卡方检验的结果:近似t检验的p=0.1677,近似卡方检验统计量为2.2300,自由度为1,p=0.1354。结果都是相同的,不能拒绝原假设。
Chapter3.方差分析
1.方差分析的思想是怎么样的?

2.单因素方差分析。
单因素方差分析 是指对单因素试验结果进行分析,检验因素对试验结果有无显著性影响的方法。
单因素方差分析是两个样本平均数比较的引伸,它是用来检验多个平均数之间的差异,从而确定因素对试验结果有无显著性影响的一种统计方法。
3.双因素方差分析。
数学模型:不考虑交互作用时。

假设

方差分析

构造统计量

双因素方差分析表

考虑交互作用时。

假设

方差分析

构造统计量

方差分析表

Chapter4.相关分析与线性回归
1.变量之间的关系有哪些表现形式?
变量之间的关系包括:
函数关系:有精确的数学表达式 。
相关关系:非确定性关系。
平行关系:相关分析(一元,多元)。
依存关系:回归分析(一元,多元) 。
2.相关系数的定义

3.一元线性回归分析



回归参数估计

显著性检验


多元线性回归的核心问题:应该选择哪些变量?
一个非典型例子(薛毅书p325)
RSS(残差平方和)与R2(相关系数平方)选择法:遍历所有可能的组合,选出使RSS
最小,R2最大的模型
AIC(Akaike information criterion)准则与BIC (Bayesian information criterion
)准则
AIC=n ln (RSSp/n)+2p
n为变量总个数,p为选出的变量个数,AIC越小越好
-----选择变量的方法-----
逐步回归
向前引入法:从一元回归开始,逐步增加变量,使指标值达到最优为止
向后剔除法:从全变量回归方程开始,逐步删去某个变量,使指标值达到最优为止
逐步筛选法:综合上述两种方法
Chapter5.Logistic回归模型与非线性回归
1.广义线性模型。


Chapter6.分类器
1.分类的意义。
传统意义下的分类:生物物种
预测:天气预报
决策:yes or no
分类的传统模型
分类(判别分析)与聚类有什么差别? 分类是有学习集的,聚类是没有学习集的。
2.常见分类模型与算法。

3.距离判别法。



-----对于协差阵相等的情况-----

-----对于协差阵不等的情况-----

4.贝叶斯分类器

-----对于总体协差阵相等的情形-----

-----对于协差阵不等的情形-----

5.Fisher判别法


Chapter7.聚类分析
1.聚类分析
聚类分析和判别分析的区别? 聚类分析没有学习集,判别分析有学习集。
样本数据:原始样本点,或样本点之间的距离数据
各种距离
常用方法:系统聚类法(凝聚的层次聚类),k平均值法
2.关键度量指标:距离
距离的定义
常用距离(薛毅书P469)
绝对值距离
欧氏距离
闵可夫斯基距离
切比雪夫距离
马氏距离
Lance和Williams距离
离散变量的距离计算
3.层次聚类法
思想
1 开始时,每个样本各自作为一类
2 规定某种度量作为样本之间的距离及类与类之间的距离,并计算之
3 将距离最短的两个类合并为一个新类
4 重复2-3,即不断合并最近的两个类,每次减少一个类,直至所有样本被合并为一类
5 适合少量样本的情况
4.各种类与类之间距离计算的方法
薛毅书P476
最短距离法
最长距离法
中间距离法
类平均法
重心法
离差平方和法 点击查看
5.动态聚类:K-means方法
算法:
1 选择K个点作为初始质心
2 将每个点指派到最近的质心,形成K个簇(聚类)
3 重新计算每个簇的质心
4 重复2-3直至质心不发生变化
6.K-means算法的优缺点
有效率,而且不容易受初始值选择的影响
不能处理非球形的簇
不能处理不同尺寸,不同密度的簇
离群值可能有较大干扰(因此要先剔除)
Chapter8.主成分分析与因子分析
1.主成分分析
Pearson于1901年提出,再由Hotelling(1933)加以发展的一种多变量统计方法
通过析取主成分显出最大的个别差异,也用来削减回归分析和聚类分析中变量的数目
可以使用样本协方差矩阵或相关系数矩阵作为出发点进行分析
成分的保留:Kaiser主张(1960)将特征值小于1的成分放弃,只保留特征值大于1的 成分
如果能用不超过3-5个成分就能解释变异的80%,就算是成功
通过对原始变量进行线性组合,得到优化的指标
把原先多个指标的计算降维为少量几个经过优化指标的计算(占去绝大部分份额)
基本思想:设法将原先众多具有一定相关性的指标,重新组合为一组新的互相独立的综合指标,并代替原先的指标
2.主成分分析的直观几何意义

3.因子分析
降维的一种方法,是主成分分析的推广和发展
是用于分析隐藏在表面现象背后的因子作用的统计模型。试图用最少个数的不可测的公共因子的线性函数与特殊因子之和来描述原来观测的每一分量
例子:各科学习成绩(数学能力,语言能力,运动能力等)
例子:生活满意度(工作满意度,家庭满意度)
例子:薛毅书P522
4.因子分析的主要用途
减少分析变量个数
通过对变量间相关关系的探测,将原始变量分组,即将相关性高的变量分为一组,用共性因子来代替该变量
使问题背后的业务因素的意义更加清晰呈现
5.与主成分分析的区别
主成分分析侧重“变异量”,通过转换原始变量为新的组合变量使到数据的“变异量”最大,从而能把样本个体之间的差异最大化,但得出来的主成分往往从业务场景的角度难以解释
因子分析更重视相关变量的“共变异量”,组合的是相关性较强的原始变量,目的是找到在背后起作用的少量关键因子,因子分析的结果往往更容易用业务知识去加以解释
6.因子分析使用了复杂的数学手段
比主成分分析更加复杂的数学模型
求解模型的方法:主成分法,主因子法,极大似然法
结果还可以通过因子旋转,使到业务意义更加明显
-----数学模型 -----


7.因子模型性质

8.统计意义
因子载荷的意义 点击查看
共同度 更多请查看

特殊方差 更多请见

总方差贡献
9.因子载荷矩阵和特殊方差矩阵的估计
主成分法
主因子法
极大似然法
10.主成分法
通过样本估算期望和协方差阵
求协方差阵的特征值和特征向量
省去特征值较小的部分,求出A、D
程序
例子
11.主因子法
首先对变量标准化
给出m和特殊方差的估计(初始)值
求出简约相关阵R*(p阶方阵)
计算R的特征值和特征向量,取其前m个,略去其它部分
求出A和D*,再迭代计算
12.极大似然法

13.方差最大的正交旋转
由于因子载荷矩阵不是唯一,有时因子的实际意义会变得难以解释。
因子载荷矩阵的正交旋转
因子载荷方差
载荷值趋于1或趋于0,公共因子具有简单化的结构
varimax( ) 函数
Chapter9.时间序列与ARIMA模型
1.时间序列方法的特殊性
时间序列 vs 回归模型
周期性:季节变动,经济周期变动
自回归现象
2.时间序列的组成部分
长期趋势
季节变动
循环变动
不规则变动
3.时间序列的数学模型
加法模型:Y=T+S+C+I
乘法模型:Y=T x S x C x I
4.平稳时间序列
随机变量Yt的均值和方差均与时间t无关
随机变量Yt和Ys的协方差只与时间差(步长)t-s有关
对于平稳时间序列在数学上有比较丰富的处理手段,非平稳的时间序
列通过差分等手段转化为平稳时间序列处理
5.平稳序列模型
白噪声
自回归模型(AR)
滑动平均模型(MA)
自回归滑动平均模型(ARMA)
6.白噪声
白噪声εt是一个平稳时间序列
不同的时间下标εt和 εs的协方差为0
白噪声用于描述简单随机干扰
泊松白噪声、布朗白噪声
7.自回归模型

8.滑动平均模型

9.自回归滑动平均模型

10.ARIMA模型

11.建模的三个主要步骤
模型识别
模型拟合
模型诊断
12.ARMA模型识别

13.模型识别

14.ARIMA建模步骤
观察图形判断是否条件期望平稳
通过自相关函数,偏自相关函数判断AR、MA、ARMA,并判断阶数
参数估计,同时计算检验统计量
序列预测
画拟合,预测图

