贝叶斯网络
文章目录
以下是根据您的要求对原文进行的同义改写
* D-separation
* HMM
* Markov Blanket
* 贝叶斯网络的应用
* 贝叶斯网络的构建
贝叶斯
相对熵
信息论中的相对熵(entropy),亦称互信息(mutual information)、交叉熵(cross entropy)、区分度(discrimination information)、Kullback-Leibler散度(Kullback-Leibler divergence)等。它是一种衡量两个概率分布之间差异程度的方法。
设p(x)和q(x)是定义域X上的两个概率分布,则称p对q的相对熵为
D_{\text{KL}}(p||q)=\sum_x p(x)\log\frac{p(x)}{q(x)}

一般的,D(pllq)≠D(qllp),D(pllq)≥0,D(qllp)≥0。
互信息
该方法通过获取特定属性来降低类别不确定性的能力作为其核心指标。其信息增益g(A,D)被定义为基于训练数据集D的经验熵与在给定属性值后的经验条件熵之间的差异。由此可知这一度量等同于训练数据集与其相关联的属性之间的互信息。
贝叶斯公式


朴素贝叶斯
某个特征被观察到的概率与其他特征(条件)相互独立(称为特征独立性)。具体而言,在给定分类条件下,这些特征彼此之间具有同等的重要性(即满足特征均衡性)。
朴素贝叶斯以各特征之间彼此独立为基础,在给定类别为y的情况下(其中),上式可以进一步表示为下式:

由以上两式可以计算出后验概率为:

考虑到P(X)的值恒定不变,在分析后验概率比值时,我们只需关注分子项的计算
贝叶斯网络
该研究系统中的相关随机变量根据其条件独立性被描绘在有向图上从而形成了贝叶斯网络。
Bayesian Network(也称为Belief Network或Directed Acyclic Graphical Model)它是一种基于概率图形模型的方法在给定拓扑结构的情况下分析一组随机变量{X₁,X₂,…,Xₙ}及其n组条件概率分布(Conditional Probability Distributions, CPD)的行为特征。
通常情况下,在贝叶斯网络中使用有向无环图来表示各个随机事件及其关联关系。这些符号不仅代表观测型变量(observable variables),还包括潜在变数(latent variables)和参数(parameters)等基本元素。通过有向边连接的不同节点间所建立的关系通常反映了因果联系(causation)或统计上的非条件独立性。当两个符号之间存在一条单向边时,则称前者为该后者的父符号(parent symbol),后者则为其子符号(child symbol)。这种关系将导致这两个符号之间形成一个条件概率分布(conditional probability distribution)。对于每一个符号来说,在已知所有其直接父符号的情况下,则该符号与所有不是其后代的关系均达到统计意义上的条件独立。
一个简单的贝叶斯网络

全连接贝叶斯网络
每一对结点之间都有边连接

一个正常的贝叶斯网络
有些边缺失。直观上:x1和x2独立,x6和x7在x4给定的条件下独立。

x1,x2…x7的联合分布:

贝叶斯网络的形式化定义
BN模型中的变量G和参数θ
其中G代表有向无环图(DAG),用于表示变量之间的依赖关系;
各节点代表随机变量X₁到X_n;
边表示这些变量之间的依赖关系;
θ是定义在所有可能条件下概率分布的参数集合;
每个节点X的概率分布由其父节点(parent)决定;
为了完整定义这个BN模型需要多少个参数?
每个节点所需的参数数量取决于其父节点的数量M以及可能取值的数量K:即K^M*(K-1)。
特殊贝叶斯网络——马尔科夫模型

结点形成一条链式网络,称作马尔科夫模型。Xi+1只与Xi有关,与Xi…Xi-1无关。
有D-separation可知,在xi给定的条件下,xi+1的分布和x1 ,x2…xi-1条件独立。即:xi+1的分布状态只和xi有关,和其他变量条件独立,这种顺次演变的随机过程模型,叫做马尔科夫模型。

应用:pLSA主题模型

条件独立的三种类型
通过贝叶斯网络判定独立条件1
根据图模型,得 P(a,b,c) = P© * P(a|c) * P(b|c),从而,P(a,b,c)/P© = P(a|c) * P(b|c)
而P(a,b|c) = P(a,b,c) / P©,得 P(a,b|c) = P(alc) * P(b|c)。即,在c给定的条件下,a,b被阻断,是条件独立的:tail-to-tail。

通过贝叶斯网络判定独立条件2
P(a,b,c) = P(a) * P(c|a) * P(b|c)
P(a,b|c)
= P(a,b, c) / P©
= P(a) * P(c|a) * P(b|c) / P©
= P(a,c) * P(b|c) / P©
= P(a|c) * P(b|c)
即:在c给定的条件下,a,b被阻断,是条件独立的:head-to-tail。

通过贝叶斯网络判定独立条件3
P(a,b,c) = P(a) * P(b) * P(c|a, b)
∑ P(a,b,c) = ∑ P(a) * P(b) * P(c|a,b)
→ P(a,b) = P(a) * P(b)
即:在c给定的条件下,a,b被阻断,是条件独立的:head-to-head。

D-separation
给定任意三个结点集合A、B和C,在所有从A中任一节点到B中任一节点的通路中,
若要实现A与B条件独立,则必须确保所有通路被截断,
即必须满足以下两点中的一个:
其一是所有通路都经过了节点C的两种类型(head-to-tail型与tail-to-tail型);
其二是不存在连接A与B且经过节点C的头对头型通路。
当上述条件不成立时,
则称A与B之间存在D-separation关系
HMM
隐式马尔科夫模型(Hidden Markov Model, HMM)是一种统计模型,在人工智能领域具有重要地位。它旨在阐述一种涉及带有隐藏未知参数的状态转移过程。其核心挑战在于推断出隐藏状态序列的概率分布,并在此基础上进行后续分析工作,如模式识别、语音识别及自然语言处理等任务研究。
在传统的马尔科夫模型中(即显式的马尔科夫模型),其内部的状态可以直接被观察到;这些状态下发生的转移行为所对应的转移概率参数构成了整个系统的全部信息基础。相比之下,在隐式的马尔科夫模型中(即隐式马尔科夫模型),系统的内部真实的状态并非直接可观察;然而存在一些与系统当前所处的状态相关的可观察变量能够间接反映出系统所处的状态信息;每个状态下,在可能输出的所有符号上都有对应的出现概率分布;而通过对这些输出符号序列的变化趋势和模式特征进行分析研究,则可以间接地了解到系统整体运行中的潜在变化规律及其动态行为特征。
HMM作为一种概率模型,在时序数据建模方面具有重要价值。它通过隐马尔科夫链(Markov chain)生成不可观测的状态序列,并通过每个状态对应于可观察到的输出变量的方式产生可观测结果。其状态的变化过程即为状态序列。每个位置代表一个时间点,在分析DNA等空间问题时也可以应用这一模型。
图中箭头体现不同信息间的关系性,在此可知x(t)与x(t-1)相关联的同时,x(t-1)也与x(t-2)相互关联。 而每个y(t)仅与x(t)相关联,其中我们把这种无法被观察者直接得知的变量称为隐式变量(hidden variable)。 隐性马尔可夫模型常用于解决那些具有未知条件的数学问题。 假设隐式状态取值的空间包含N个元素,即在时间t时,隐式状态共有N种可能性。 同理,t+1时刻也会有N种可能性,因此从t时刻到t+1时刻之间存在N²种可能性分布。 除了各个隐式变量之间的关系外,每对隐式变量及其对应的观测变量y(t)之间也存在对应关系。 观测结果y(t)共有M种可能取值的情况下,x(t)到y(t)的状态输出模型复杂度为O(NM),若观测结果是一个M维向量,则其复杂度提升为O(NM²)。

Markov Blanket
在一个结点的Markov Blanket中被给定时,在这个集合中的所有结点都与该结点条件独立。具体来说,在这种情况下,该结点与其父节点(parents)、子节点(children)以及配偶节点(spouses)之间存在直接关联
贝叶斯网络的应用
基于提供的样本数据集, 采用先进的机器学习算法, 构建贝叶斯网络模型并确定其网络架构. 在构建好的贝叶斯网络模型基础上, 应用该模型对未知测试样本进行推理分析, 利用该模型对未知测试样本进行推理分析, 以便实现故障诊断、结果预测以及分类识别的任务.
贝叶斯网络的构建
依次计算每个变量D分离局部检验的结果,并综合各节点得出贝叶斯网络。
算法步骤如下:
为变量选择一个合理的顺序:X₁, X₂, …, Xₙ;
对于每一个i从1到n:
在网络中加入第i个节点;
在已存在的节点X₁, X₂, …, X_{i−1}中为第i个节点选取适当的父节点,并确保:

这种构造方法,显然保证了全局的语义要求:

