笔记 加州理工学院公开课:机器学习与数据挖掘 一
对正在观看的一个公开课做好笔记:第一课链接在此处,请访问http://open.163.com/movie/2012/2/3/C/M8FH262HJ_M8FTVDQ3C.html
该课程为加州理工学院机器学习领域的入门级课程其特点类似于科普类内容旨在帮助学生复习和巩固之前所学的知识点以便于更好地理解后续内容的重点在于深入理解基本概念并尽量避免过多数学公式的推导
本课程的主讲人是Yaser Abu-Mostafa教授,来自Caltech这一顶尖学府。值得称道的是他与产业界有着深厚的联系。因此这门课程涵盖了大量实用内容。
第一课是 学习问题
本课的核心目标在于阐述"学习"的本质。第一点指出,在数据中存在着固有的模式或规律;第二条说明这个模式无法被精确地用数学公式表达;第三条进一步指出:即使能用数学模型进行描述,则无需进行"学习";然而在实际操作中我们通常面临的是第四种情况:即拥有大量数据的前提下;这里的"学习"概念与我们在生活中的理解有所不同——它不涉及智能层面;而是仅指从数据中提取无法被数学公式精确描述的规律;此外这种方式还有诸多限制条件;而我们日常生活中的知识获取则更为复杂和高级
另外,关于学习方式的分类也值得商榷.按照他的观点可以分为三类:监督式学习、无监督式学习以及强化式学习.其中前两种方法相对直接,而第三种方法则具有显著的独特性.一个较为生动的例子是将无监督式的学习机制比喻为人类在没有任何参考资料的情况下自主习得一种语言.值得注意的是,强化式的学习与前两种方法的不同之处在于其反馈机制更为灵活:它不像其他两种那样依赖于严格的评价体系;相反,在这种模式下,我们可以采用类似于电影评论的方式进行评估.
此外,在最后一个问题解答环节中 一位带有亚裔口音的学生阐述了许多问题 尽管有些问题看似简单 如何获取数据 然而教授仍表现出高度的热情和耐心的态度 据推测 这可能是一门本科生课程 因此 加州理工学院的整体氛围确实与众不同。
第二课是 学习的可行性
本次课程探讨了"能学什么"这一核心问题,也即学习理论的基本框架.最初我以为这更多是关于从数据中是否能得出结论以及可能涉及的问题类型.然而教授却深入从纯粹数学的角度探讨了为何在数据分析时能够获得合理假设的本质原因.简单来说,这是因为频率在样本数量足够大时会趋近于概率.对于学过统计课程的人来说,在样本数量足够大时频率趋近于概率是一个基本事实.这个理论的核心便是Hoeffding不等式:

在本研究中所涉及的变量中,nu代表频率参数;mu代表概率分布;epsilon作为这两个概念之间的误差指标;N则表示取样的总次数。通过分析该公式可知,在数据量较大的情况下(即N较大时),频率估计值与真实概率之间的接近程度逐渐增强;然而,在epsilon值较小的情况下(即误差较小时),这一关系却出现了矛盾。当观察到的epsilon值非常小时(即误差极低),右边的指数项趋近于1;这意味着,在这种情况下出现频率与真实概率明显偏差的概率显著降低。值得注意的是,并非直接断言'频率等于概率'这一命题成立;相反地,在大样本条件下(即N很大时),我们有很高的信心认为这一等式在统计上成立(即PAC)。换句话说,在这种情况下'频率接近真实概率'的说法具有很高的可信度。
探讨Hoeffding不等式与学习问题之间的内在关联。为了更好地阐述这一概念关系,请先明确几个关键术语:样本内频率则定义为 Ein(即 in-sample error),而样本外概率则定义为 Eout(即 out-of-sample error)。为了评估各个假设的表现效果,我们通常关注两个指标:训练集误差 Ein(h) 和泛化误差 Eout(h)。基于上述讨论可知,在统计学习理论中,Hoeffding 不等式提供了一个上界来量化两者之间的差异关系。

这个公式与原式完全一致 即证实了频率等于概率这一结论 但当假设数量较多时 公式的适用性会显著下降 比如一枚硬币连续掷十次 出现全正面的概率约为0.1% 而当同时掷1000枚硬币时 其中出现至少一枚全正面朝上的概率则高达63% 因此在复杂情况下 需要在计算中加入累加符号

在本研究中,g代表最终被选定的那个假设,在所有可能的假设中存在M个候选假设。这个数学表达式表明,在假设数量过多的情况下(即M值较大),模型的效果往往会受到影响。例如,在实验设计过程中若引入过多的参数设置(即M值过大),可能导致难以准确评估模型性能。具体而言,在假设空间过于宽泛的情况下(即M过大),观察到的频率可能会与实际的概率值产生偏差。
在最后的问答环节中, 有人询问Hoeffding是如何证明学习可行性的. 看来还是有同学听完一节课后仍感到困惑, 不知道这些内容与题目之间的关联. 那么回答的主要内容是原始的Hoeffding不等式仅仅证明了频率等于概率这一事实. 而谈到学习时, 则需要考虑多种情况同时发生. 因此, 在这种情况下通常会引入一个系数M. 好吧, 听起来这个理论并没有太多实际应用价值. 或许这只是作为一种知识背景了解一下就可以.
