【机器学习】—— 什么是机器学习
什么是机器学习(Machine Learning)
机器学习这个词听起来有点奇怪呢!其实如果我们试着从另一个角度来考虑,“Learning Machine”的意思也不太容易让人接受。“那如果我们把'Machine'换成'Algorithm'的话,则会更容易理解。”经过这样的思考过程,“Learning Algorithm”也即是我们常说的学习算法。“所以综上所述”,机器学习其实就是那些具备自主学习能力的算法吧!
那么接下来的核心问题就围绕着'如何获得知识与技能'以及'知识来源在哪里'展开。让我们回溯一下关于知识获取的历史进程——最早的人类通过观察自然界的某些现象或实物(或者图片)来建立认知。在传统教育模式中,默认的学习场景通常涉及两大部分:一是通过阅读教材获取理论知识;二是通过完成习题巩固所学内容。由此可知,在传统教育体系中学生的学习路径主要是通过被动接受教师所讲授的知识点,并通过大量练习巩固记忆——这一过程被统称为数据分析与处理能力的培养。而机器学习则提供了一种全新的视角:它遵循类似的逻辑——即基于经验数据建立模型并实现特定功能——但其背后的工作原理则更加复杂且抽象
那么如何学习呢?举例说明:假设有一组数据包含房屋面积与房价两个变量。我们的目标是尝试建立这两个变量之间的关系模型,并利用一个函数来实现预测
得出一个结果,其中X代表输入的房屋面积,则y对应于房屋的价格.目前我们已经确定了这一规律性关系,在机器学习中所建立的学习模型本质上就是一个函数.
那么这个函数怎么得到呢?先别急,假设我们得到了一个函数
由于该函数是从数据中获得的(原因),我们需要通过这些数据来评估它的性能(目的)。假设有一部分具有明确结果的数据集(前提),所谓具有明确结果的数据点指的是那些房屋价格被明确记录(补充说明)的数据样本(对象)。这些数据样本通常以表格形式呈现(结构)。
由于该函数是从数据中获得的(原因),我们需要通过这些数据来评估它的性能(目的)。假设有一部分具有明确结果的数据集(前提),所谓具有明确结果的数据点指的是那些房屋价格被明确记录(补充说明)的数据样本(对象)。这些数据样本通常以表格形式呈现(结构)。
,其中
是第i的样本房屋价格,
是第i个样本的房屋面积。因为我们已经有函数
,那么对于
,我们可以得到一个预测结果
经过一番复杂概念的定义后, 如何量化地评估该函数的表现?我们可以采用均方误差作为评价指标, 即MSE = 1/n ∑_{i=1}^{n}(y_i - ŷ_i)².
引入作为评价基准后,在形成了评价体系的前提下,请问如何构建这一函数?我们期望通过最小化损失来优化模型参数设置。
,使得
最小,用公式写出来就是,假设
是
的所有参数,我们就是要找到
。
经过一番探讨与分析后发现我们的目标已经明确。在机器学习中一个重要的概念是损失函数(Lagrangian function),它通常用来衡量模型预测值与真实值之间的差异程度。对于熟悉高等数学的人来说应该具备一些相关的知识和理解那就是如果一个函数是连续可导的那么在其极值点处的导数值必定等于零这一性质非常重要。至此问题得以解决我们将注意力集中在计算其导数并令其等于零从而能够得到最优解这一过程的关键步骤已经被清晰地阐述清楚了。
哈哈一笑别担心哦!如果是对于那些简单些的Loss函数而言呢?直接计算梯度应该不成问题吧?但是一旦遇到那个导数等于零的情况时该怎么办呢?不过放心吧!我们的目标一直都是——找到那个最优参数的位置。
,这个问题实际上是一个最优化问题的表现形式啦。通常我们会采用梯度下降法来解决这个问题,在下次机会中进行讲解吧。总体而言...利用以下数学公式表示机器学习的整体流程:
\text{模型} = f(\theta) + \sum_{i=1}^{m} L(y_i, \hat{y}_i)

回顾一下, 这篇博客主要讲了什么是机器学习
1.我们了解了机器学习就是具有学习能力的算法 。
2.我们知道了我们最终的模型是通过学习数据 得到的。
3.我们知道对于学习到的模型应该有一个评价标准,那就是损失函数 。
为了实现最终目标是最优的一组模型参数,必须满足条件的是优化算法
希望能坚持把这篇博客写下去,希望能对看到这篇博客的人有所帮助
