做好机器学习,数学要学到什么程度?看完这篇文章你就懂了!
《机器学习》(《西瓜书》),清华大学出版社 出版以及 《深度学习》(花书),人民邮电出版社 出版] 这两部著作 分别是国内机器学习与深度学习领域的权威教材 。学术界普遍认为这些著作具有极高的学术水准 , 但目前仍存在一个不容忽视的问题 : 即 由于 学者们缺乏坚实的数学理论基础 , 很多初学者往往难以突破这一门槛 , 并且难以深入理解其中的核心概念 。
学好机器学习,需要哪些数学知识?
我们先看典型的机器学习算法所用到的数学知识点 ,如下表所示。
受限于篇幅问题,在此未能列举出强化学习、机器学习理论以及自动化机器学习(AutoML)等技术所依赖的数学知识


根据该表格可以看出,在使用频率方面涉及的主要知识点包括向量及其矩阵运算、基于梯度下降法的优化技术以及信息论相关的模型框架。
整体来说,就是下面这几门课的内容:
- 微积分
- 线性代数
- 概率论
- 最优化方法
- 信息论
- 随机过程
- 图论
这张图详细展示了这些知识的系统架构。其中线性代数和微积分是构建其他课程的基石,在它们的基础上发展出一系列相关学科。最优化方法高度依赖于微积分的知识框架,并在此基础上延伸出信息论与随机过程作为概率论的重要组成部分。

下面我们分别来介绍这几门课在机器学习中到底用到了哪些内容。
微积分
微积分可划分为单变量微积分与多变量微积分两大类,它是高等数学的基础。
一般情况下,在进行机器学习时必须建立数学模型或映射关系(即所谓的假设)。由于这些模型本质上是数学函数,在分析它们的行为时必须使用微积分这一强大的工具。微积分为研究这些函数的性质——如单调性和凹凸性——提供了坚实的理论基础。此外,在学习概率论、信息论以及最优化方法等后续课程中都需要依赖于这一强大的数学工具作为基础支撑。
就目前而言,在机器学习领域所涉及的微积分知识已经被工科微积分教材基本涵盖了。
1. 上/下确界
2. 李普希茨连续性
3. 雅克比矩阵
4. Hessian矩阵
5. 多元函数的凹凸性
6. 多元函数的极值
7. 多元函数的泰勒公式
8. 多重积分的换元法
AI写代码
如果你真的学好了本科微积分,上面这些内容并不难理解。
对于微分学习而言,核心内容集中在下图所示的知识点上。具体包括函数求导的基本原则(尤其是处理复合函数的链式法则)以及泰勒展开的相关理论。在泰勒展开中的一阶项和二阶项共同决定了函数极值的位置及其性质;这对于后续研究与推演如梯度下降法、牛顿法及其变种等优化算法具有至关重要的作用

积分学的核心在于掌握下面这种图形中的公式及其应用。具体来说,这涵盖了定积分与多重积分的计算方法,并且涉及到了变量替换法来简化积分运算。

线性代数
线性代数是机器学习的基础学科。在机器学习算法中,输入变量、输出变量以及中间计算结果常以向量、矩阵和张量的形式表示。
通过应用线性代数的方法来表达问题会更加简洁明了;在复杂的问题中使用矩阵运算能够有效地降低计算难度,并且比展开为多重求和的形式更为直观易懂。同时,在学习更高阶的数学课程时掌握这些方法是非常重要的基础工具;它不仅与微积分相结合,在分析多元函数时具有重要价值,并且能够在多变量系统中提供更直观的理解方式。
在线概率学领域内也得到了广泛应用,在此背景下也出现了许多相关的研究工作
在机器学习的过程中所涉及的知识中存在一定数量的知识内容超出了常规教材范围,并且对于许多读者而言可能是陌生的概念。这包括:
1. 向量的范数
2. 矩阵的范数,包括谱范数
3. Householder变换
4. QR算法
5. 广义特征值
6. 瑞利商
7. 矩阵的条件数
8. 矩阵分解,包括Cholesky分解,QR分解,奇异值分解(SVD)等
AI写代码
这些知识在机器学习教材和相关论文中频繁出现。
概率论
概率论对于机器学习来说也是至关重要的,它是一种重要的工具。
如果把机器学习算法的输入与输出视为随机变量或向量,则可采用概率论的方法对其问题进行建模。其显著的优势在于能够有效建模不确定性。此外,在揭示变量间的概率依存关系方面具有独特优势,并能实现因果推理的过程。
作为支撑理论的学科,在众多随机化算法中扮演着重要角色的概率论包括蒙特卡洛方法与遗传算法等技术,并在基础的随机数生成以及采样方法等方面形成了系统的理论基础。最后而言的话,在信息科学与工程领域中,概率论被视为信息论与随机过程的基础课程。
下面这张图清晰的列出了概率论的核心知识。

工科的概率论与数理统计教材中已经涵盖了机器学习所需的主要概率论知识,并不包括以下几个方面的内容
1. 条件独立性
2. Jensen不等式
3. 某些概率分布,如多项分布,拉普拉斯分布,t分布等
4. 概率分布变换
5. 多维正态分布
6. 多维概率分布变换
7. 某些参数估计方法,包括最大后验概率估计,贝叶斯估计等
8. 随机数生成算法,包括逆变换采样,拒绝采样等算法
AI写代码
最优化方法
现代优化技术在机器学习领域占据核心地位,在这一背景下许多读者并未系统地接受过相关的课程教育。遗憾的是许多读者并未系统地接受过相关的课程教育。该领域涉及线性规划、凸优化以及非线性规划等技术,在这些基础理论之上构建了一套完整的解决方案体系。然而,在大多数情况下,在数值分析课程中仅涵盖这些方法的基础知识和简要介绍。
几乎所有的机器学习算法最后都可以被视为解决最优化问题的过程,并非只能用于估计模型参数,并且这种过程还能直接生成预测结果。
- 前者的典型代表是监督学习 ,基于损失函数的最小化或其他优化目标进行模型参数的估计;
- 后者的典型代表是降维技术 ,通过设定特定的目标函数进行数据降维处理,例如主成分分析。
下面这张图列出了最优化方法的核心知识。

信息论
信息论作为一种数学理论的发展方向,在机器学习及深度学习领域中常用作建立目标函数的基础工具,并用于对算法进行理论分析与证明工作。这也是一些读者未曾系统接触过的复杂学科内容。
在机器学习尤其是深度学习中,信息论的知识随处可见:
- 决策树的训练过程涉及利用熵作为衡量标准。
- 深度学习中常用交叉熵损失函数、Kullback-Leibler散度、Jensen-Shannon散度以及互信息量等核心概念。
- 变分推断方法的核心理论是基于KL散度的一种概率分布近似技术。
- 距离度量学习和流形降维等算法主要采用信息论中的相关理论作为基础支撑。
从整体来看,在该领域应用最为广泛的是一系列与信息论相关的关键指标:其中作为信息论中的核心指标之一的熵(entropy)常用于衡量数据不确定性;交叉熵损失函数常用于分类问题中的损失计算;Kullback-Leibler散度衡量两个概率分布之间的差异程度;Jensen-Shannon散度则提供了对称性以避免某些局限性;互信息衡量两个变量之间的独立性程度;以及条件熵则关注特定条件下变量的信息量。
下面这张图列出了信息论的核心知识。

随机过程
随机过程同样是概率论的延伸,这也是大部分读者没有学习过的课程。
在机器学习中,随机过程被广泛应用于概率图模型、强化学习以及贝叶斯优化等领域。缺乏对马尔可夫过程的理解可能会让你难以掌握MCMC采样算法的运作机制。
下面这张图列出了机器学习中随机过程的核心知识。

在机器学习领域应用广泛的主要工具是马尔可夫过程与高斯过程。其中隐马尔科夫模型及其衍生的应用如马尔可夫决策过程,在该领域具有重要地位。此外这些理论基础中的平稳分布与细致平衡条件构成了MCMC采样方法的核心理论支撑。
图论
该领域的知识主要局限于计算机相关专业本科生的学习范畴,并且尚未完全覆盖完整体系的内容例如谱图理论。而在机器学习领域中概率图模型作为一种典型的基于图的数据结构被广泛应用。流形降维算法和谱聚类算法都采用了谱图理论作为其理论基础计算图则作为一种典型的图形表示方式被广泛应用于各个研究领域为此深入理解这一技术的基础知识显得尤为重要
如何解决机器学习的数学问题?《机器学习的数学》是你的一个好选择!

这本书以最精炼的方式全面而简洁地涵盖了机器学习、深度学习、强化学习所需的基础知识。章节安排科学有序,在讲解时只涉及必要的内容而不涉及无用的部分,这样能够有效地降低读者的学习负担.
通过持续深入阅读这本书,并非仅仅是为了完成任务或达到某个目标, 而是能够从根本上扫清你在学习西瓜书, 花书等教材时遇到的数学障碍. 在遇到复杂的数学符号和公式时, 并不会感到陌生或难以理解. 对于这些数学知识如何将其应用到机器学习与深度学习的研究与实践中, 并且形成了较为清晰的认识.
在职场上表现出色的人可能会显著地提升自己的竞争力,在学术研究方面有所投入的人们可能会从而为其提供坚实的数学基础。
如若你还有关于人工智能的任何问题或感兴趣的知识领域,请告知我在哪里。也欢迎各位大神加入我的新群:863308802 ,共同讨论人工智能话题,并获取更多人工智能课程视频与学习资料哦!让我们一起努力吧!

