Advertisement

机器学习-期末复习

阅读量:

文章目录

  • 第1章线性回归模型

    • 第1节 线性回归问题分析
      • 第1小节.1 线性关系的建立与求解
      • 第1小节.2 模型假设条件探讨(如独立同分布)
      • 第1小节.3 最优参数求解准则(如极大似然估计)
      • 第1小节.4 梯度下降算法实现思路
      • 第2小节 参数更新策略探讨(如动量加速技术)
  • 第五章基于logistic回归分析的理论研究

  • 第十一章决策树算法的理论基础

    • 1.决策树算法的基本概念与核心原理
      • 2.第二部分以具体案例说明决策树的构建过程,并详细阐述其基于信息论的特征选择机制——即通过计算数据集的信息增益来确定最优分割标准
      • 3.在评估特征重要性时采用归一化信息增益指标;同时,在分裂节点时使用基尼不纯度指标作为分裂标准
      • 4.在防止过拟合方面采用剪枝技术以优化模型结构并提高预测性能

第十八章 神经网络算法原理

  • 朴素贝叶斯

第一章线性回归

1、线性回归问题

在这里插入图片描述

目的:令工资为x1,年龄为x2,标签为y即额度,求出θ1和θ2即可求出方程。

2、误差项定义

在这里插入图片描述
在这里插入图片描述

θ0决定了直线或平面的位置变化为上升或下降。
当不包含x₀时无法构成矩阵形式。为了实现这一目标,请自行构造一个向量x₀,其内部数据全为1;经过处理后将等于自身。

在这里插入图片描述

添加完x0之后,就转化成一种矩阵形式。

在这里插入图片描述

y(i)属于真实值;θ与x结合所形成的预测值被称为预测值;而预测值与真实值之间存在误差关系。
我们追求误差项最小化的过程。

3、独立同分布

在这里插入图片描述

4、极大似然估计

在这里插入图片描述

假设误差遵循高斯分布,则该等式的均值为零。由此导出下一行的方程。
这个高斯分布基于误差项建立,请问您是要解决参数θ的问题吗?然而我们的目标参数是θ而非直接求解误差项。因此我们需要重新排列方程组以求解参数θ:将第一个方程中的θx项移到左边,则有yi - θxi = 该误差项,并且该误差满足第二个方程组的结果中计算得出第三个方程。

在这里插入图片描述

无论是计算L(θ)还是Log L(θ),取对数是为了简化计算。将连乘转换为连加后进行操作。我们的目标是估计参数θ而不是直接求得结果值。

在这里插入图片描述

我们关注的重点仅限于变量θ, 而其余的部分均为常数. 在本上下文中,默认使用自然对数(即以e为底), exp函数表示指数运算, 因此有如下等式成立: ln(e^x) = x. 因此该表达式的值直接等于x

在这里插入图片描述
在这里插入图片描述

5、梯度下降

可以类比于下山问题,在解决过程中需要按照以下步骤进行:首先确定一个方向;例如,在下图所示的情景中,目标点最初被表示为虚线箭头的方向。接着需要确定步长;过大步长可能导致失败(沿此方向走太大直接导致悬崖坠落),因此应当先完成当前步长后重新确认方向。

在这里插入图片描述
在这里插入图片描述

6、参数更新方法

由于x_0x_1互不相关,则\theta_0\theta_1必定也互不相关。因此,我们可以分别寻找\theta_0\theta_1各自合适的搜索方向。再考虑一下这个方向,则可得出该方向即为求偏导的结果。

在这里插入图片描述
在这里插入图片描述

批量计算所有样本的梯度下降方向,在假设样本数量m非常大(例如100万)时,在每次更新模型参数时都需要迭代一百万次才能得到最终结果。
特别值得注意的是随机梯度下降方法只采用单个样本数据计算当前的梯度方向,并且能够显著减少计算复杂性的同时也能避免了需要迭代一百万次的问题。
但需要注意存在异常数据或噪声数据的影响。

在这里插入图片描述
在这里插入图片描述

小批量梯度下降,综合上述两个方法:

在这里插入图片描述

在模型训练过程中,在其大小通常设置为64或256等其他数值的情况下,默认情况下这取决于优化需求。批次规模越大,通常会提高模型预测精度更高;然而可能导致训练效率下降。

第五章逻辑回归原理推导

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

类似地,在这种情况下会有一个数值与之对应的具体数值比如是0.95这样的数值此时就会被认为属于1这个类别而不是0这个类别。
sigmoid函数作为非线性变换函数在这一过程中能够将一个值转换为相应的概率。
基于sigmoid函数在这一过程中的作用会将一个值转化为相应的概率问题。

在这里插入图片描述

如上,令Z=θT x

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第十一章 决策树原理

1、决策树算法概述

在这里插入图片描述

2.实例 信息增益

在这里插入图片描述
在这里插入图片描述

在用根节点之前,首先先算出原始数据根节点,

在这里插入图片描述
在这里插入图片描述

3.信息增益率 基尼指数

不使用信息增益的主要原因是什么?
如果将id视为一个属性的话,在编号1到14之间总共有14个不同的类别,并且每个类别只有一个实例,“非常纯净”。尽管在这种情况下信息增益达到最大值,但它仍然缺乏实际意义。

在这里插入图片描述
在这里插入图片描述

依据id属性进行分类,在计算信息增益率时采用以下公式:IG = \frac{H(parent) - H(child)}{H(parent)}其中分母为样本自身的熵H(child);分子计算结果较大但相比而言其值相对较小;因此整体上能够有效降低计算复杂度。相比于仅依据信息增益进行评估的方式而言,并不会出现过于夸张的结果。

在这里插入图片描述

4.剪枝

防止过拟合;所谓过拟合是什么意思;简单来说就是训练数据表现优异;导致测试集无法表现出良好的泛化能力。

在这里插入图片描述
在这里插入图片描述

第十八章神经网络算法原理

1.深度学习要解决的问题

最外圈:人工智能,中间:机器学习,最内圈:深度学习

在这里插入图片描述

神经网络是一种特征提取 的方法,解决特征工程的问题。

在这里插入图片描述

深度学习解决的核心问题是:怎么样去提取特征?

2.深度学习应用领域

在这里插入图片描述
在这里插入图片描述

补充: K近邻算法

在这里插入图片描述

物以类聚人以群分,考察绿圆圈属于什么类别?

在这里插入图片描述
在这里插入图片描述

k近邻算法没有一个学习的过程,而深度学习有一个学习的过程

3.得分函数

在这里插入图片描述

要观察一下这张图片是否属于猫类的评分项、犬类的评分标准或狮子类的评分指标……

在这里插入图片描述

w₁表示猫这个分类的权重矩阵,其维度为1×3072的原因是,输入x具有3072个像素点.
w₂表示狗…以此类推,具体来说,总共有十个分类类别,因此最终的权重矩阵W为10×3072的大小.

b起到微调作用,(y=Wx+b
b是10x1的意思是每一个类别都要微调

4.损失函数的作用

在这里插入图片描述

假设将图像划分为四个区域(即五个分割线),这些区域自左至右自上而下依次对应数值

权重参数的大小的作用,越大说明作用越大。

查看最终计算结果:明明是一只猫却被模型误判为狗,请问数据存在问题吗?由于ξ保持恒定且W发生变化导致了错误。

神经网络的作用:什么样的W值能够产生理想的效果?我们一直在致力于优化W参数。

在这里插入图片描述

5.前向传播和反向传播

在这里插入图片描述
在这里插入图片描述

得到L(损失函数),神经网络的目标就是更新W,什么样的W才是最合适的?

在这里插入图片描述
在这里插入图片描述

6.神经网络整体架构

为了更好地了解x是如何被依次进行操作的,并掌握其逆向操作的方法。
这一图表具有重要意义,并且能够大致理解其中内容的程度大约达到80%。

在这里插入图片描述

神经网络架构包括输入端、隐藏端1、隐藏端2和输出端。神经网络逐层运行。
输入端有多少个节点代表输入特征的数量(例如:年龄、体重和身高等)。

举个例子说明一下吧:假设有一个1×3的输入向量X₀作用于权重参数组W₁(形状为3×4),那么这一步骤实际上就是将原始三维空间映射到四维空间中进行信息扩展与提取;随后利用第二组权重参数组W₂(形状为4×4)对中间结果X₁进行进一步提取与变换;尽管同样是四个维度的数据,在经过一次线性变换后其数值特性会发生显著变化;最后再应用第三组权重参数组W₃(形状为4×1)完成最终输出结果X₂。

在这里插入图片描述

得到的结果好不好,就是看W1、W2、W3。

非线性
全过程:[(xW1)W2]W3,那么如果有个w4=w1w2w3,可以直接xw4来代替上述式子吗?
不能。因为有非线性操作,加在每一步进行矩阵计算之后:

在这里插入图片描述

被标记为非线性的是那些满足特定条件的事物。那么什么是非线性呢?比如指数函数、e^x以及取最大值等都不是线性的。

在这里插入图片描述

7.神经元

理论情况下,神经元个数越多越好,但要考虑过拟合问题。

8.正则化和激活函数

经过非线性变换后,需要激活函数,

朴素贝叶斯

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

全部评论 (0)

还没有任何评论哟~