Advertisement

Chapter 6 贝叶斯学习

阅读量:

第6章 贝叶斯学习

6.1 概述

  1. 贝叶斯推理对机器学习十分重要,它
  • 构建了量化评估多个假设条件置信度的体系,

  • 为概率学习算法的直接操作奠定了基础,

  • 并构建了其他算法分析的理论基础。
    贝叶斯学习方法的主要特点体现在其理论深度和应用广泛性方面

  • 每个训练样例都可以逐步调整某假设的估计概率,并使其分别被提升或削弱;

  • 先验知识与观察数据共同影响着假设的概率;

  • 允许模型赋予处理不确定性的能力;

  • 新的数据点分类可以通过加权平均的方式综合多个假设来进行预测;

  • 即使贝叶斯方法计算较为繁琐,在实际应用中仍然能作为一个最优决策标准来评估其他方法。
    实践中的挑战在于其理论基础相对复杂且难以直观理解以及在实际应用中存在计算上的困难。

  • 必要的概率先验知识;

  • 通常情况下确定贝叶斯最优假设所需的计算成本较大(其与候选假设的数量呈线性增长的趋势)。

6.2 贝叶斯法则

先验概率(Prior Probability)
P(h) 表示我们在考虑h是否为正确假设时所依据的背景知识。当缺乏这些先验知识时,默认的做法是给所有候选假设相同的初始概率值。
P(D) 表示我们在观察到训练数据集D之前对该数据集的概率判断,在无法确定某个特定假设成立的情况下其发生可能性。

  1. P(D│h) 表示在假设成立的条件下观察到数据的概率。

  2. 后验概率(Posterior Probability)
    P(h|D)显示了观察到数据后假设成立的置信度。

  3. 贝叶斯公式:

6.3 极大后验假设和极大似然假设

极大后验(Maximum A Posteriori , MAP)假设:学习器从候选假设集合H中选择可能性最高的假设h∈H(如果有多个这样的情况,则选择其中之一)。该假设有最高的后验概率;更准确地说,在满足以下条件下时,则称h_MAP为MAP假说:

  1. 极大似然(Maximum Likehood, ML)假设:在某些情况下,在贝叶斯理论框架下,默认认为模型参数的所有可能取值具有相同的先验概率(即对于任何两个假设 h_ih_j ,有 P(h_i) = P(h_j)),此时我们只需关注后验概率的最大化问题。这种设定通常称为在给定观察到的数据集时计算模型参数的似然度函数。为了使参数估计达到最大值的目标,则被称作极大似然估计过程下的最优参数 \hat{h}_{ML}

  2. 若所有假设有相等的先验概率,则ML假设等同于MAP假设。

6.4 贝叶斯法则和概念学习

6.4.1 Brute-Force贝叶斯概念学习

Brute-Force MAP学习算法 对于H中的每一个假设h_i,在给定观测数据D的情况下计算其条件概率P(h_i|D):选择具有最高条件概率的假设作为最佳估计值;该算法通过穷举法遍历所有可能的参数组合以实现最佳拟合

若满足:

  1. 训练数据 是无噪声的;

  2. 目标概念 c 包含在假设空间中;

  3. 没有任何理由认为某假设比其他假设的可能性大。

则与一致的每个假设都是MAP假设。

6.4.2 MAP假设和一致学习器

一致学习器:若学习算法输出的假设在训练样例上有零错误率。

在假设空间中设定均匀先验概率分布(即对于其中任意两个假设h₁和h₂,在所有可能的情况下它们被赋予相同的先验概率),并且假定训练数据具有确定性和无噪声特性(当且仅当给定的特征向量x属于某个类别时的概率P(D|h)=1,否则P(D|h)=0),那么任何一致的学习器都将推导出最大后验概率(MAP)假设。

贝叶斯框架提供了一种描述学习算法行为的方法,即使该学习算法不涉及概率操作.通过利用算法输出最优假设时所依据的概率分布以及P(D│h)$, 可以揭示出该算法在具有最优行为时所隐含的假定.这与反映了学习器中的归纳偏置在思想上是类似的.

6.5 极大似然与最小误差平方假设

学习器 L 操控在实例空间 X 和假设空间之间,并根据给定的数据建立映射关系。为了实现这一目标,在样本空间中定义了一系列实值函数作为候选模型。为了使模型能够准确反映数据特征,在给定的数据集中选择一个最优解。设有 m 个训练样本集\{\langle x_i, d_i\rangle\} ,其中每个样本满足d_i = f(x_i) + e_i ,这里f(x)代表真实的目标函数而\{e_i\}则表示独立抽取的小噪声干扰项。这些噪声服从零均值正态分布特性保证了系统的稳定性和可靠性。为了使模型具有更好的泛化能力,在优化过程中采用最小二乘法原则来确定参数估计量的最大似然解。

取对数得

基于正态分布定义中的指数项

6.6 极大似然与最小交叉熵假设

基于假设, 训练数据 的具体形式表示为集合 D=\{\langle x_1, d_1\rangle, \dots, \langle x_m, d_m\rangle\}, 其中每个d_i均表示观测到f(x_i)取值0或1的情况。学习器的任务是构建一个概率模型f'(x_i) = P(f(x_i) = 1)来预测f(x_i)的概率。为了简化表述, 我们将x_ id_ i都被视为随机变量, 并且基于假设每个训练样例都是独立抽取的,则

以上量的负值称为交叉熵(Cross Entropy)。

6.7 最小描述长度准则

该准则是以符号\ C_1\ 和\ C_2\ 用于表示假设及其在这些假设下的数据特征的一种方法:亦即可表述为选择$\ h_{\text{MDL}}\ 使其满足

该准则旨在通过 基于 信息论理论基础来定义。

我们定义C_1为最优编码方案,则h_{MDL}=h_{MAP}。\n\n根据信息论的基本原理,在给定最优编码下训练数据的描述长度与模型复杂性之间存在权衡关系。\n\n通过引入先验知识能够有效降低模型复杂度的同时减少训练误差。\n需要注意的是,在特定条件下这一结论才成立,并非适用于所有情况

6.8 贝叶斯最优分类器与Gibbs算法

6.8.1 贝叶斯最优分类器

假设对于任意一个新实例x∈X,则其最大可能性属于某个类别vj∈V,并且该概率P(vj|D)即为该实例被正确归类的概率。其中的具体数值由训练数据集D决定。

贝叶斯最优分类器(Bayes Optimal Classifier):

基于相同的假设空间和一致设定下的先验概率分布,在所有其他方法中都无法超越贝叶斯最优分类器的平均性能。该算法基于可获得的数据、限定的假设集合以及这些假设的相关知识储备,在此前提下能够使新实例被正确分类的成功率达到最高。值得注意的是,贝叶斯最优分类器的一个独特特性在于其决策结果对应于当前模型无法涵盖的所有可能性。

6.8.2 Gibbs算法

贝叶斯最优分类器由于其计算复杂度较高而在实际应用中存在较大开销。其核心原因在于需要对 候选集合中的每一个假设进行后验概率计算,并将各假设预测结果进行集成以完成新实例分类任务。 Gibbs算法的基本步骤如下:首先基于目标概念上的后验概率分布从候选集合中随机选取一个假设;其次利用该被选中的假设对新实例 x 进行分类预测。当学习器假定基于先验概率进行抽样时,在期望风险最小化的情形下Gibbs算法的最大可能错误率是最优贝叶斯分类器错误率的两倍。

6.9 朴素贝叶斯分类器与m-估计

6.9.1 朴素贝叶斯分类器

朴素贝叶斯分类器(Naive Bayes classifier)基于一个核心假设,在给定目标值的情况下各属性之间条件上相互独立;具体而言,在给定目标值的情况下各属性之间条件上相互独立。

朴素贝叶斯分类器:

P(v_j)P(a_i|v_j) 取决于其在训练数据中的出现频率。\n\n\n\n朴素贝叶斯分类器遵循无需进行任何假设空间的搜索过程。\n\n\n\n当条件独立性满足时,此时朴素贝叶斯分类等同于最大后验概率(MAP)分类。

6.9.2 m-估计

  1. m-估计:

其中,在缺乏其他信息的情况下,在待确定的概率上采用均匀分布下的先验概率是一种典型的方法。该方法被称为等效样本大小的概念,则意味着它相当于将n个实际观察进行扩展,并附加基于该分布生成的数量相等的虚拟样本。

Laplace加1平滑是一种处理方法:它通过将每个属性的计数值增加1来实现;这种方法使得估计的概率变化变得微乎其微,并有效规避了零概率的问题。

6.10 贝叶斯信念网简介

基于给定目标变量值时各变量之间的条件独立关系被朴素贝叶斯分类器所假设;而贝叶斯信念网则能够描述一组特定变量之间的条件独立关系。

6.10.1 条件独立性

当满足以下条件时,在给定的变量集合Z=\{z_1,\dots,z_n\}中我们称变量集合X=\{x_1,\dots,x_l\}是关于变量集合Y=\{y_1,\dots,y_m\}conditionally independent。

6.10.2 贝叶斯信念网的表示

贝叶斯信念网络代表了一组变量的联合概率分布。该方法通过建立一组条件独立性假定(用有向无环图DAG来表征)以及设定一系列局部条件概率集合来实现对系统的建模。每个随机变量在此DAG中以节点的形式存在,并通过连接各节点之间的边来表征其间的概率关系。其核心是利用贝叶斯链式法则来揭示各变量之间的全局相关性。

6.11 EM算法

6.11.1 EM算法的一般表述

定义为已观测数据集的变量X、未观测数据的集合Z,并令Y = X ∪ Z。

  1. E步:基于当前参数θ(t)和潜在变量Z的分布q(Z),推断出观测数据X的概率密度函数p(X|θ(t))并用于推导Q(θ' | θ)的具体表达式或关系。

2. M步骤:将当前假设 替换为使 Q 函数最大化的假设 h'

反复执行前述两个步骤直至算法完成收敛过程。
当该函数满足某种条件时(例如连续性),EM算法将导致该似然函数达到一个稳定状态。
如果该似然函数具有唯一的最大值,则EM算法能够达到全局极大似然估计的结果;否则,在存在多个局部最大值的情况下,则只能得到局部最优解。

6.11.2 k-均值算法的推导

k-均值算法用于计算多个正态分布的均值向量θ = ⟨μ₁,…,μ_k⟩。已有的数据是观测到的数据集X = {⟨x_i⟩} ,其中隐藏变量Z = {⟨z_{i1},…,z_{ik}⟩}(需要注意的是,在每个实例中只有一个z_{ij}等于1而其他都等于0)表示哪个正态分布用于生成该实例的数据。每个实例y_i = ⟨x_i,z_{i,1},…,z_{ik}⟩的概率p(y_i | h')可以用以下公式表示:

于是有:

因为 \ln P(Y | h') 是 的线性函数,所以有:

即,k-均值问题中函数 为:

其中定义为 h'=\langle \mu'_1,\dots,\mu'_k \rangle ,而 E[z_{ij}] 经过计算得出,它是基于当前假设以及观察到的数据。

接下来,


全部评论 (0)

还没有任何评论哟~