统计学习精要 (Elements of Statistical Learning ) 习题 2.2
统计学习精要 (Elements of Statistical Learning ) 习题 2.2
Explain how to calculate the Bayesian decision boundary for the simulation case depicted in Figure 2.5.
计算Figure 2.5中的例子中的贝叶斯决策边界。

思路:
如图所示,在图2.1、图2.2以及图2.3中均可找到示例数据。其中第16页详细说明了真实数据的分布情况。这些蓝色的数据点是通过以下过程生成的:首先从均值为(1,0)、协方差矩阵为单位矩阵I的正态分布N((1,0)^T,I)中抽取十个样本点p_i(i=1,…,10)。每个这样的样本点都有一个\frac{1}{10}的概率被进一步选中作为中心点m。然后在这个区域内的另一个新点将从均值为m、协方差矩阵缩放五分之一的新正态分布N(m,I/5)中进行采样操作。这种操作总共进行了100次迭代得到全部蓝色样本数据集。
类似地橙色样本数据集也是通过上述过程生成但其初始采样的十倍样本来自均值为(0,1)、单位协方差矩阵I的正态分布N((0,1)^T,I)中的q_i(i=1,…,n)。
因此两类点的先验概率为
P(\mathcal{G}_{BLUE}) = P(\mathcal{G}_{ORANGE}) = \frac{1}{2}.
每个被选中的概率均为
P(m=p_i \mid \mathcal{G}_{BLUE}) = 1/10,
以及
P(m=q_i \mid \mathcal{G}_{ORANGE}) = 1/10.
而似然概率则为
类似地,
因此根据贝叶斯公式,可知后验概率为
根据第21页(2.23),决策边界在后验概率相等处,因此
代入上述式子并化简,得到
因此决策边界为
当 f(x)>0 时,分类结果为蓝色,否则为橙色。
