Advertisement

Natural Language Processing-自然语言处理-机器学习(数学相关)

阅读量:

随时间更新

目录

概率Porbability

什么是概率

概率的和

独立事件

贝叶斯概率

二项式分布

利用方差判断两种变量的关系:covariance

多项式分布

辛普森谬误

指数

伽马分布

beta分布

泊松分布

高斯分布

对数正态分布


概率Porbability

什么是概率

抛一枚硬币,会有多种可能

我们设想一种硬币有两种可能性:一种是硬币稳稳地立在地面上的可能性;另一种是当硬币被投掷后坠落地面时会破碎的可能性。

若依照这种原则,从人自身的角度所预测出的结果叫做主观概率。

但在实际生活种抛硬币往往只出现一正一反两种结果,

若根据结果反推概率,则叫做客观概率 ,即 频率=概率。

举例:

主观概率往往是经验堆叠的产物,

例如订外卖时,请注意行程大概需要10分钟左右。红绿灯停留约需1分钟。准备时间仅需约1分钟后,则预计在第十二分钟后成功送达的机会约为80%

客观概率往往根据统计结果而来,

例如,在相同订单条件下连续点了同样的外卖100份中的一百份订单达到12分钟送达的标准有80份,则判定12分钟送达的成功率为约8成

我们所得到的概率,往往是主客观概率相互叠加的结果。

比如抛一枚硬币,100次,55正,45反。

对于这个数据,我们有2种处理办法。

首先环境因素是关于我们掌握的关键信息,在信息获取方面需要特别注意其潜在限制性因素。基于现有信息分析的结果表明,在硬币设计中,默认情况下正反面具有明确区分性

从这一角度来看, 我们完全有理由相信正面更容易朝上, 并且这归因于正反两面之间存在的细微差异.

但我们也同样认为两种情况的概率相等,并非出现频率的差异是偶然现象。

只是综合考虑,往往认同第二种结果。二者都没有绝对的正确。

概率的和

概率的和 表示 全集,所有。

是自上而下,先设定总和,再考虑部分占比。这点很重要

所以概率的和可以是任何正数,为了方便取1

要搞清概率,重要的是看它如何从整体向下分。

独立事件

有两个人

(1)假如第一个是男,则第二个是男的概率?

第一个是男,等价于设定了第一个事件A,男,概率为100%

求第二个是男的概率?等价于再次设定了一个事件B,男50%,女50%

0.5

(2)两个都是男的概率?

直接划定了整体为1,在考虑部分

0.25

A,B互为独立事件,

它们两个都是一个整体,全集,1,

B之内的小事件,是男,是女,互为互斥事件,二者不可同时发生

小事件加起来概率为1

贝叶斯概率

上图等号左边,表示B已经发生的情况下,A发生的概率

A,B都发生的概率 ( A发生)( A发生后,B也发生 ) (B发生)(B发生后,A也发生)

上图,贝叶斯公式

二项式分布

抛硬币

正面概率p

反面概率1-p

抛了n次,k次正面向上的概率?

概率分布如下:二项式分布,或者是正态分布

二项式分布形成条件或机制:

  1. 事件有两种情形(正面与负面)
  2. 两种情形发生的概率(几乎)相等
  3. 这是一系列相互独立的事件(综合影响作用)
  4. 没有任何一个因素能够主导结果的变化(每个要素对于最终结果的作用程度差异不大)

事实上,自然界,人类社会有很多东西都是成正态分布的,

或许就和形成这种条件的机制相关。

把比如说对于一个人的身高,

它的影响因素有很多,但我们都可以归为正影响和负影响两种情况,

饮食习惯可能造成身高变矮,或变高,且机率几乎相等

基因也会使身高变矮,或变高,且机率几乎相等

....

综合叠加这些影响因素,对于一个整体来说,最终造成了身高的正态分布

利用方差判断两种变量的关系:covariance

图中为一系列点的坐标

A点的横纵坐标都是整体均值

B点为随机一点

乘积=(x-a)(y-b)

=Δx * Δy

很明显,

当随机点在一三象限中时,乘积为正,正相关

当随机点在二四象限中时,乘积为负,负相关

设一函数

cov(x,y)=E(乘积),表示所有乘积(面积)的均值

当cov(x,y)>0时,总体呈正相关

当cov(x,y)<0时,总体呈负相关

但是当cov(x,y)=0时,

只能证明该数据分布很对称

或者说数据图形是个对称图形,导致了正负乘积相互抵消了,

不能证明x,y无关,如下图

它们的cov都为0,但x,y有明显关系

多项式分布

辛普森谬误

如图,AB两个人分配给他们任务

第一天:A得到1个任务,完成0个

B得到4个任务,完成1个

第二天:A得到4个任务,完成3个

B得到1个任务,完成1个

从任务完成率上来看,B两天的完成率都要高于A,

但最终完成的任务数量要低于A

这就是辛普森谬误

这种现象只是有可能发生。

如何避免数据带来的迷惑:

可以把事件分为大事件和小事件

大事件表现好的要重视(增加权重)

两种事件概率不轻易相加

指数

伽马分布

beta分布

泊松分布

高斯分布

对数正态分布

全部评论 (0)

还没有任何评论哟~