Advertisement

概率论信息论基础(随机变量、常用概率分布、贝叶斯规则、信息论基础、结构化概率模型)

阅读量:

目录

随机变量及其概率分布

独立性

期望方差协方差

常用概率分布

常用函数

贝叶斯规则

信息论基础

结构化概率模型


如果这篇文章对你有一点小小的帮助,请给个关注喔我会非常开心的

随机变量及其概率分布

随机变量遵循可以取不同值的规律,并由一个概率分布来对应于每个状态的可能性。

对于具有不同取值的可能性进行描述的随机变量类型被称为离散型随机变量;它们通常被通过概率质量函数(PMF)来建模,并也被称为概率分布规律。

Continuous random variables are typically represented by the probability density function (PDF), which assigns a probability to each possible area within its domain.

elta x

的无限小区域内的概率为

pelta x

多个变量的概率分布被称为联合概率分布 ,例如

P

也可以简写

P

假设我们有一个联合概率分布P(X,Y),想要获取某个子集的概率分布P(X),可以通过计算另一个变量Y的总和来得到。

P=um_{y}P
P=nt pdy

在某个条件发生的情况下,计算事件的概率,称作条件概率 ,例如在

extup{x}=x

的条件下,

extup{y}=y

发生的概率,可表示为:

P=rac{P}{P}

条件概率的链式法则:

P},...,x{(n)})=P(x^{(1)})\prod_{i=2}{n}P}id x{(1)},...,x{}

独立性

如果满足

p=pp

,则称这两个随机变量相互独立

如果满足

p=pp

,则称这两个随机变量相互条件独立

期望方差协方差

f

关于某分布

P

期望 ,表示当

x

P

产生时,

f

的平均值:
E_{xim P}=um_xPf
E_{xim p}=nt pfdx

方差 表示随机变量

x

呈现的差异性:
Var=E^2

方差的平方根称为标准差

协方差 给出了两个随机变量线性相关性的强度:
Cov,g=E-E

协方差的magnitude如果significantly large意味着变量显示出较大的波动性并且远离各自的average

协方差如果是正的,那么两个变量都倾向于同时取相对较大的值。

当协方差为负数时,在一个变量趋向于较大数值的同时(即当其中一个变量变大时),另一个变量趋向于较小的数值。

协方差矩阵 是一个

nimes n

的矩阵,满足:

Cov_{i,j}=Cov

常用概率分布

伯努利分布 (Bernoulli distribution)是单个二值随机变量的分布。

egin{align*} & P=p   & P=1-p   & E=p   & Var=p nd{align*}

二项分布

n

次重复的伯努利实验,记作

x im b

egin{align*} & P=inom{n}{k}pk(1-p){n-k}   & E=np   & Var=np nd{align*}

泊松分布 是广泛应用于描述单位时间内随机事件发生次数的概率模型

x im i

ambda

是单位时间内随机事件的平均发生次数。

egin{align*} & P=rac{ambdake{-ambda}}{k!}   & E=ambda   & Var=ambda nd{align*}

均匀分布 表示在一段连续的范围内概率密度处处相等,记作

x im U

egin{align*} & f=rac{1}{b-a}a<x<b   & E=rac{a+b}{2}   & Var=rac{^2}{12} nd{align*}

指数分布 表示概率密度呈指数分布。

egin{align*} & f=rac{1}{heta} e^{-rac{x}{heta}}x>0   & E=heta   & Var=heta^2 nd{align*}

高斯分布 (Gaussian distribution),也称作正态分布,是最常用的分布,记作

x im N

egin{align*} & f=rac{1}{qrt{2i}igma}xp2}{2\sigma2}   & E=u   & Var=igma^2 nd{align*}

u=0igma=1

时,高斯分布称为标准正态分布

多维正态分布 ,参数

igma

表示分布的协方差矩阵。

N=rac{1}{qrt{n\det(\Sigma)}}\exp(-\frac{(x-\mu)Tigma^{-1}}{2}

拉普拉斯分布 (Laplace distribution)可以在任意一点设置概率的峰值。

Laplace=rac{1}{2amma}xp

狄拉克delta函数 (Dirac delta function)的定义为:

p=elta

狄拉克分布 经常作为经验分布的一个组成部分出现:

at{p}=rac{1}{m}um_{i=1}^melta}

常用函数

logistic sigmoid 函数 ,取值范围

igma=rac{1}{1+e^{-x}}

softplus函数 ,取值范围

,是 ReLu 函数的平滑形式:

eta  =og

sigmoid 函数和 softplus 函数之间的常用性质:

egin{align*} & igma=rac{ex}{ex+e^0}   & rac{athrm{d} }{athrm{d} x}igma=igma   & 1-igma=igma   & ogigma=-eta   & rac{athrm{d}}{athrm{d} x}eta=igma   & orall xn ,igma^{-1}=og   & orall x>0,eta^{-1}=og   & eta=nt_{-nfty}^{x}igmady   & eta-eta=x nd{align*}

正部函数 是指

x^{+}=ax

负部函数 是指

x^{-}=ax

贝叶斯规则

贝叶斯规则用于计算条件概率:

P=rac{PP}{P}=rac{PP}{um_xPP}

信息论基础

信息论的核心理念意指一个罕见事件意外地发生所携带的信息量能够更多地反映其重要性。

一个事件

extup{x}=x

自信息 表示为:

I=-og P

香农熵 (Shannon entropy)表示整个概率分布中的不确定性总量,指事件所产生的期望信息总量:
H=E_{xim P}=-E_{xim P}

x

是连续的,香农熵被称为微分熵 (differential entropy)。

接近确定性分布具有较低的香农熵,接近均匀分布具有较高的香农熵。

同一个随机变量

x

的两个单独的概率分布

P

Q

,可以使用 KL 散度 来衡量分布的差异性:
D_{KL}=E_{xim P}=E_{xim P}

KL 散度衡量的是,当我们使用一种被设计成能够使概率分布

Q

产生的消息的长度最小的编码,发送包含概率分布

P

产生的符号的消息时,所需要的额外信息量。

与 KL 散度密切联系的量是交叉熵

H=H+D_{KL}=-E_{xim P}og Q

在信息论中,定义

im_{xightarrow 0}xog x=0

结构化概率模型

通过图形结构来展示概率分布的分解形式,在这种模型中,每个节点代表一个随机变量;每条边则代表两个节点之间的概率分布。

有向模型 对于分布的每一个随机变量,都包含一个父节点

PaG

的条件概率影响因子:

p=rod_i p

例如下图,对应概率分布可分解为

p=ppppp

无向模型 将分解表示成一组函数,两两之间有边连接的顶点称为团

C^{}

,每个团都有一个因子

hi^{}}

p=rac{1}{Z}rod_i hi^{}}

其中,

Z

为归一化常数,通常是所有状态的求和或积分。

例如下图,对应概率分布可分解为

p=rac{1}{Z}hi{(1)}(a,b,c)\phi2hi^3


如果这篇文章对你有一点小小的帮助,请给个关注喔我会非常开心的

全部评论 (0)

还没有任何评论哟~