Advertisement

DataWhale机器学习——第一章、第二章笔记

阅读量:

1、绪论

1.1 机器学习的定义

机器学习作为一门学科而言,在人工智能领域占据着重要地位

该书将"模型"作为代表,在分析数据时所获得的结果。研究者常常用"模型"来代表全局性结果,如构建一棵决策树的过程。与此同时,在研究局部性规则时,则采用"模式"这一术语。

1.2 基本术语

  • 数据集:样本sample/示例instance的集合 D={x1,x2,...xm}
  • 样本sample/示例instance:包含研究对象在某方面的表现,即属性attribute(或特征feature)/属性值attribute value,是样本空间中的一个向量 Xi=(Xi1;Xi2;...Xid)
  • 属性空间attribute space/样本空间sample space:把属性作为坐标轴构造的n维空间
  • 特征向量feature vector:一个样本在样本空间中的坐标表示。
  • 用于训练过程中的数据称为训练数据,训练样本组成的集合称为训练集。模型有时也称为学习器,可看作学习算法在给定数据和参数空间上的实例化,学习过程是为了找出或逼近真相(ground-truth)。
  • 除了有示例数据之外,还需要示例结果——“好瓜”与“坏瓜”,即标记(label)。拥有label的称为样例,表示第i个样例,其中是示例的label,是所有标记的集合,称为“标记空间”或“输出空间”。
  • 若预测的是连续值,则称此类学习任务为“回归”;
  • 若预测的是离散值,则称此类学习任务为“分类”,分类可分为二分类和多分类。
  • 预测任务旨在通过训练集进行学习,建立一个从输入空间X到输出空间Y的映射。
  • 被预测的样本为测试样本,其集合称为测试集。
  • 根据标记信息(label)的有无,学习任务大致可分为两大类:监督学习和无监督学习。回归与分类属于前者,聚类(将训练集按照某种标准划分为若干组,每组都有某种相似特性)属于后者。
  • 模型适用于新样本的能力称为“泛化能力”。一般来说,训练集越大,模型学习的关于未知分布D(假设样本空间全体样本服从该分布)的信息越多,其泛化能力强的可能性越大。

1.3 假设空间

当我们从事学习活动时,面临的可能是一个规模宏大的假设空间

归纳学习 : 从样例中学习概念或规律。

版本空间 : 与训练集一致的假设集合。

1.4 归纳偏好

归纳偏好反映了学习算法在假设有向选择过程中的倾向特征,并非只局限于对简单或复杂模型的选择权衡;奥卡姆剃刀准则(Occam's razor)是一种常用的简化假设的方法之一;然而并非唯一适用的选择策略;一个有效的学习系统应当根据具体应用场景来设定其归纳偏好模式。

  • 简洁性准则遵循Occam's Razor原理,在模型构建中优先选择最简单的假设。
    • 归纳倾向引导模型在探索假设空间时避免陷入等效假说的误导。

1.5 发展历程

机器学习被视为人工智能的重要组成部分,并非传统学科领域中的独立学科。其发展历程可追溯至上世纪中期,在这一时期经历了从理论研究到实际应用不断深化的过程

起源阶段:20世纪40年代至50年代期间,随着电子计算机技术的诞生和发展过程不断推进,在那个时期里科学家们最初开始探索如何实现计算机具备自主学习与决策能力。1943年,在麦卡斯科与皮茨两位先驱学者的努力之下提出了神经网络计算模型的理论框架,并为其奠定了理论基础。

在20世纪50年代初期,《初步发展阶段》时期,在人工智能领域取得了重要进展:1950年,图灵开创性地提出了‘图灵测试’这一重要评估标准;与此同时,在1957年,《初步发展阶段》中,在神经网络模型方面也取得了突破性进展:Rosenblatt提出了感知机(Perceptron)模型。

冷静时期:20世纪60-70年代期间,在受限于感知机技术的限制下,机器学习的发展基本停滞不前。主要原因是理论上的不足、硬件设施的限制以及对感知机效果存疑。

黄金时代 :从20世纪70年代中期一直到20世纪80年代末期之间的时间段内,机器学习逐渐崭露头角并得到了迅速发展。1980年时事态发展到了一个关键转折点——卡内基梅隆大学首次成功举办了机器学习领域的第一届国际研讨会。到了1986年,《Machine Learning》期刊首次创刊并立即成为该领域的重要研究平台,在随后的时间里也为机器学习的发展奠定了重要基础。

深度学习的发展始于1986年,Rumelhart等先驱提出反向传播算法(BP)这一重要工具.随后,2006年,Hinton团队开发了深度学习框架,开创了神经网络机器学习的新篇章.

随着深度学习技术的迅速发展,在该年的ImageNet竞赛中, Hinton团队采用基于深度学习的技术取得了突破性进展, 从而标志着这一技术领域的快速发展进入了新纪元。近年来,该技术已在多个领域取得显著成效, 包括但不限于谷歌翻译与苹果Siri等应用实例

当前发展 :在大数据时代背景下,在金融、医疗及自动驾驶等领域实现广泛的应用。与此同时,在人工智能技术不断发展的推动下,在集成学习与强化学习等相关技术领域持续推陈出新地发展着

1.6 应用现状

  • 图像识别、自然语言处理、推荐系统等。

2. 模型评估与选择

2.1 经验误差与过拟合

经验误差(Empirical Error)

经验误差(training error)也被称为training error rate,在机器学习中用于评估模型在训练数据集上的表现。它通常通过计算模型预测结果与训练数据集中真实标签之间的差异来量化。虽然经验误差能够提供一个衡量模型在训练数据集上表现能力的标准(training data set),但它并不能完全可靠地反映模型对未知数据的学习能力(generalization ability)。当模型过于复杂时,在训练数据上的拟合效果可能非常好(overfitting),但在面对新的测试数据时却表现出较差的表现(poor generalization performance)。这种情况被称为过拟合(overfitting)。

过拟合(Overfitting)

过拟合是指模型在训练数据上表现出色,在未曾见过的新数据上则表现不佳的现象。这种现象通常由模型过于复杂化导致其捕获了训练数据中的噪声和细节而非潜在的数据分布规律。过拟合的模型因缺乏足够的泛化能力而难以有效推广到新数据集上。

2.2 评估方法

为了准确度量模型性能,在确保测试集与训练集相互独立的前提下(即保证两者具有相似的分布特性),我们通常会采用留出法、交叉验证法或自助采样技术等方法进行评估。其中每种方法都有其独特特点,并最适合特定的数据规模和应用场景。参数调优是提升模型性能的关键环节,在初始阶段尤为重要(因为适当参数设置能够显著提升预测效果)。最终版本的模型应当基于完整数据集进行过拟合训练后发布

  • 留出法: 划分数据集为训练集与测试集用于性能评估。
    • 交叉验证法: 称为k折交叉验证法, 将数据划分为多个子集, 轮流使用其中一部分作为测试样本, 其余部分作为训练样本, 可全面考察模型泛化能力。
    • 自助法: 利用自助采样方法生成若干个训练样本集合, 并基于此计算平均误差指标, 从而降低模型偏差。
    • 调参: 其设置不同可能会影响模型性能。
    • 最终模型选择: 根据完整数据重新优化选定的参数配置以获得最佳表现。

2.3 性能度量

用于机器学习领域中的性能度量,则是评估模型优劣的关键指标。以下是一些常用的性能度量方法:

错误率与精度

  • 错误率(Error Rate):模型预测错误的数量占总样本数量的比例,并等于1减去准确率(Accuracy)。
    • 精度(Accuracy):正确分类或预测的对象数量占总样本数量的比例,并在数据集各分类样本均衡时是一个重要的评估指标。

查准率、查全率与F1分数

  • 查准率(Precision):在模型预测为正类的所有样本中,在真实标签为正类的比例中所占的比例。较高的查准率意味着较低的假阳性数量。其计算公式为:Precision = TP / (TP + FP)。
  • 查全率(Recall)真正例比例(True Positive Rate, TPR):在所有真实标签为正类的样本中,在被模型正确识别为正类的比例中所占的比例。较高的查全率意味着较低的假阴性数量。其计算公式为:Recall = TP / (TP + FN)。
  • F1分数(F1 Score):查准率与查全率的调和平均值,在综合考量查准率与查全率的基础上对分类性能进行度量评估。其计算公式为:F1 = 2 × (Precision × Recall) / (Precision + Recall)。

ROC AUC

  • ROC AUC (Receiver Operating Characteristic Area Under the Curve):接收者操作特征曲线下面积用于评估分类模型的整体表现。该曲线是通过绘制不同阈值下的真正例率与假正例率的关系图来生成的。AUC数值越大则表示该模型的整体性能越优。

代价敏感错误率

  • 代价敏感错误率(Cost-sensitive Error Rate) :在各类别之间的预测误差赋予不同的惩罚权重,在解决数据集中存在类别不平衡的问题时具有重要应用价值。误将阳性样本归为阴性类别所造成的损失可能高于误将阴性样本归为阳性类别所造成的损失。

代价曲线

  • 成本曲线(Cost Curve) :与ROC曲线类似,在该曲线上每个点的y轴值代表了各类别错误损失的加权总和。成本曲线通过展示模型在各类别错误损失下的性能表现,为评估模型性能提供了一个多维度视角。

其他度量

  • Matthews相关系数(Matthews Correlation Coefficient, MCC) 是一个介于-1至+1之间的统计量,在二分类问题中用于评估模型性能。其数值达到+1时表明模型具有完美的分类能力;当值为0时则意味着模型的分类能力与随机猜测无异;若出现-1的情况,则预示所有分类结果均为误判。
    • 混淆矩阵(Confusion Matrix) 是一种表格形式的数据展示工具,在机器学习中用于分析模型的分类结果表现。该表格主要包含四个关键指标:真实正样本(TP)、假正样本(FP)、真实负样本(TN)以及假负样本(FN),这些指标共同构成了对模型性能的重要评估标准。

根据具体情况选择适当的性能指标。例如,在医疗诊断领域中,可能会更关注减少假阴性结果以提高检测的准确性。因此查准率或加权误分类成本可能更适合评估此类问题的表现。同样地,在垃圾邮件识别方面,则需要考虑降低将正常邮件误判为垃圾邮件的可能性以保护用户的正常信箱安全。

2.4 比较检验

在机器学习领域中,差异检验法被用作检测不同模型或算法性能差异是否存在统计学意义的工具。以下是一些常用的差异检验方法;它们被广泛应用于评估各种模型或算法之间的性能对比。

假设检验(Hypothesis Testing)

在统计学领域中我们通过假设检验来鉴定两组数据之间的差异是否存在统计学意义的一种方法。在机器学习领域中多采用假设检验来进行两个模型性能的比较。这涉及到以下步骤:

  • 零假设(Null Hypothesis, H0) : 假定两个模型在性能上无显著差别。
    • 备择假设(Alternative Hypothesis, H1) : 反之,则认为这两个模型在性能上有明显区别。
    • p值(p-value) : 为了检验零假说的有效性,在其成立的情况下观察到的数据出现的概率有多大?当计算出的p值低于设定的标准(通常取0.05)时,则拒绝零假说……从而判断两者的性能存在显著差异。

交叉验证t检验(Cross-Validation t-test)

交叉验证的t检验作为一种比较两个模型性能的方法,在评估过程中考虑了模型性能估计中的不确定性因素。该方法通常包括以下步骤:

交叉验证的t检验作为一种比较两个模型性能的方法,在评估过程中考虑了模型性能估计中的不确定性因素。该方法通常包括以下步骤:

  • 采用相同的数据集对每个模型实施k次交叉验证。
  • 计算出各模型的平均性能指标及其标准差。
  • 通过t检验方法分析两组均值间的差异是否具有统计学意义。

McNemar检验

McNemar检验用于评估两个分类模型在分类问题上的效果及其差异性分析。该检验特别适用于当数据集为二分法问题且两模型决策存在差异的情况。基于配对样本分析的方法能够识别出两模型在特定类别上是否存在显著统计差异。

Friedman检验

这类检验属于非参数统计方法的一种,在评估多个模型性能方面具有独特的优势。该方法被用来比较三个或更多模型的表现能力,在数据呈现非正态分布特征或各组方差不一致的情况下,则采用此替代方案以确保结果的有效性与可靠性。具体实施步骤将在下文详细阐述

  • 按照模型数量进行排序评估时,其性能水平越高则排名位置越靠前。
  • 统计各模型在各项指标下的综合评分值,并计算所有模型评分值之和。
  • 通过Friedman检验统计量可判断多个独立样本间是否存在系统性差异。

Nemenyi后续检验(Nemenyi Post Hoc Test)

当基于Friedman检验的结果显示出各模型性能之间存在显著差异时,则有必要进一步识别出哪些特定模型之间表现出明显的性能差异。Nemenyi后续检验是一种用于识别多个候选模型中表现最为突出的那个的方法;它通过计算不同模型之间的均值差值,并结合学生化秩次分数来确定是否存在统计意义上的显著差异。该方法不仅能够帮助定位具有显著优势的模型,在推断过程中还能有效控制总体I类错误率以确保结论的有效性。

注意事项

  • 在实施比较检验的过程中,应满足数据独立性、正态性和方差齐性等前提条件。
  • 比较检验的结果可能受样本大小、数据分布特征及模型选择等因素的影响。
  • 在实际应用场景中,建议将比较检验与其他评估方法(例如交叉验证)结合起来使用,以实现更为全面的模型性能评估。

2.5 偏差与方差

偏差(Bias)

  • 定义 :在机器学习中,偏差(Bias)是指学习算法预测结果与真实值之间的差异性指标。它直接反映了模型对数据的学习能力其本质反映了算法固有的特性。
    • 影响因素 :通过调节训练过程中的参数设置能够有效调控偏差水平如调节决策树深度参数或优化神经网络迭代次数等技术手段均可起到相应作用。

方差(Variance)

  • 定义:方差用于量化由于训练集大小变动所导致的学习性能变化,并揭示了数据扰动对模型性能的影响。
    • 影响因素:通过集成学习方法控制基学习器的数量能够有效降低方差。

噪声(Noise)

概念

泛化性能

  • 泛化能力 :泛化能力取决于学习算法的能力、数据的充分性和学习任务本身的难度等因素。

偏差-方差窘境(Bias-Variance Dilemma)

  • 定义:两者之间存在着权衡关系,在减少偏差的过程中往往会导致方差上升。
    • 表现
      • 当模型尚未充分训练时,在降低泛化错误率方面仅能依靠偏差因素发挥作用。
      • 随着模型接受的数据量增加(即训练程度加深),其逐渐捕捉到了数据中的噪声特征从而导致方差主导错误率。
      • 当模型过度拟合时(即接受过多的数据信息),其容易陷入对局部模式的学习而忽视全局规律。

解决策略

  • 调节训练深度 :科学地配置学习算法的学习强度以确保既不过于依赖现有数据也避免知识积累过多。
    • 正则化手段 :采用L1范式与L2范式相结合的方式有效抑制过拟合现象。
    • 数据预处理 :通过多样化的数据增强手段显著提升了样本空间的质量并降低了对特定训练集的高度依赖性。
    • 集成策略 :本系统采用了多策略融合的方法将多个子模型的概率预测结果进行了综合评估从而实现了分类决策的整体优化。

结论

为了使机器学习模型具备良好的泛化能力,在训练过程中应在偏差与方差之间寻求均衡这一目标至关重要。这通常涉及选择合适的模型架构(model selection)、采用适当的正则化方法(regularization techniques)以及相关的数据预处理策略(data preprocessing approaches),并结合不同的模型评估指标(model evaluation metrics)。通过深入理解并灵活运用这些基本原理与技术手段,在构建机器学习系统的过程中能够有效提升其泛化性能。

全部评论 (0)

还没有任何评论哟~