Natural Language Processing-自然语言处理-机器学习(数学相关)
随时间更新
目录
概率Porbability
什么是概率
概率的和
独立事件
贝叶斯概率
二项式分布
利用方差判断两种变量的关系:covariance
多项式分布
辛普森谬误
指数
伽马分布
beta分布
泊松分布
高斯分布
对数正态分布
概率Porbability
什么是概率
抛一枚硬币,会有多种可能
我们设想一种硬币有两种可能性:一种是硬币稳稳地立在地面上的可能性;另一种是当硬币被投掷后坠落地面时会破碎的可能性。
若依照这种原则,从人自身的角度所预测出的结果叫做主观概率。
但在实际生活种抛硬币往往只出现一正一反两种结果,
若根据结果反推概率,则叫做客观概率 ,即 频率=概率。
举例:
主观概率往往是经验堆叠的产物,
例如订外卖时,请注意行程大概需要10分钟左右。红绿灯停留约需1分钟。准备时间仅需约1分钟后,则预计在第十二分钟后成功送达的机会约为80%
客观概率往往根据统计结果而来,
例如,在相同订单条件下连续点了同样的外卖100份中的一百份订单达到12分钟送达的标准有80份,则判定12分钟送达的成功率为约8成
我们所得到的概率,往往是主客观概率相互叠加的结果。
比如抛一枚硬币,100次,55正,45反。
对于这个数据,我们有2种处理办法。
首先环境因素是关于我们掌握的关键信息,在信息获取方面需要特别注意其潜在限制性因素。基于现有信息分析的结果表明,在硬币设计中,默认情况下正反面具有明确区分性
从这一角度来看, 我们完全有理由相信正面更容易朝上, 并且这归因于正反两面之间存在的细微差异.
但我们也同样认为两种情况的概率相等,并非出现频率的差异是偶然现象。
只是综合考虑,往往认同第二种结果。二者都没有绝对的正确。
概率的和
概率的和 表示 全集,所有。
是自上而下,先设定总和,再考虑部分占比。这点很重要
所以概率的和可以是任何正数,为了方便取1
要搞清概率,重要的是看它如何从整体向下分。
独立事件
有两个人
(1)假如第一个是男,则第二个是男的概率?
第一个是男,等价于设定了第一个事件A,男,概率为100%
求第二个是男的概率?等价于再次设定了一个事件B,男50%,女50%
0.5
(2)两个都是男的概率?
直接划定了整体为1,在考虑部分
0.25
A,B互为独立事件,
它们两个都是一个整体,全集,1,
B之内的小事件,是男,是女,互为互斥事件,二者不可同时发生
小事件加起来概率为1
贝叶斯概率

上图等号左边,表示B已经发生的情况下,A发生的概率

A,B都发生的概率 ( A发生)( A发生后,B也发生 ) (B发生)(B发生后,A也发生)

上图,贝叶斯公式
二项式分布
抛硬币
正面概率p
反面概率1-p
抛了n次,k次正面向上的概率?

概率分布如下:二项式分布,或者是正态分布

二项式分布形成条件或机制:
- 事件有两种情形(正面与负面)
- 两种情形发生的概率(几乎)相等
- 这是一系列相互独立的事件(综合影响作用)
- 没有任何一个因素能够主导结果的变化(每个要素对于最终结果的作用程度差异不大)
事实上,自然界,人类社会有很多东西都是成正态分布的,
或许就和形成这种条件的机制相关。
把比如说对于一个人的身高,
它的影响因素有很多,但我们都可以归为正影响和负影响两种情况,
饮食习惯可能造成身高变矮,或变高,且机率几乎相等
基因也会使身高变矮,或变高,且机率几乎相等
....
综合叠加这些影响因素,对于一个整体来说,最终造成了身高的正态分布
利用方差判断两种变量的关系:covariance

图中为一系列点的坐标
A点的横纵坐标都是整体均值
B点为随机一点
乘积=(x-a)(y-b)
=Δx * Δy
很明显,
当随机点在一三象限中时,乘积为正,正相关
当随机点在二四象限中时,乘积为负,负相关
设一函数
cov(x,y)=E(乘积),表示所有乘积(面积)的均值
当cov(x,y)>0时,总体呈正相关
当cov(x,y)<0时,总体呈负相关
但是当cov(x,y)=0时,
只能证明该数据分布很对称
或者说数据图形是个对称图形,导致了正负乘积相互抵消了,
不能证明x,y无关,如下图
它们的cov都为0,但x,y有明显关系

多项式分布
辛普森谬误

如图,AB两个人分配给他们任务
第一天:A得到1个任务,完成0个
B得到4个任务,完成1个
第二天:A得到4个任务,完成3个
B得到1个任务,完成1个
从任务完成率上来看,B两天的完成率都要高于A,
但最终完成的任务数量要低于A
这就是辛普森谬误
这种现象只是有可能发生。
如何避免数据带来的迷惑:
可以把事件分为大事件和小事件
大事件表现好的要重视(增加权重)
两种事件概率不轻易相加
