【从零开始的机器学习】-01 什么是“机器学习”?
背景
通过本系列文章我希望不仅能够记录我在机器学习方面的心得体会 更能让更多人了解这一前沿科技 传播其知识与智慧
1. 什么是机器学习?
对于这个问题,Arthur Lee Samuel本人这样说道:'The field of study has been given the ability to enable computers to learn without explicit programming.' (使计算机能够无需明确编程也能进行学习的研究领域)
而Tom M. Mitchell给出了一个更为具体的解释:"一个系统能够从经验E中学习,在任务T所在的领域内,并通过性能指标P来衡量其学习效果"(即随着经验E的增长,系统的性能表现得以改善)。
从基础角度来讲,在机器学习领域中针对某个特定的任务/问题T而言,则会执行一系列操作步骤以获取数据集作为输入并完成特定的任务目标。随后我们将这些数据经过评估后所获得的结果质量作为性能指标P来进行量化分析。整个流程我们将它定义为一次经验E而机器学习正是通过不断积累这些经验E来提升其性能的过程
例子1:下象棋
任务T:进行棋艺训练;
表现P:遵循特定策略后(如采用"金角银边草肚皮"战术,并优先占据角落),下一盘比赛的胜率;
经验E:在多盘比赛中积累的经验和结果分析;
机器学习的本质是从一个包含大量棋局结果的数据集(E)中去除低效的策略,并选择最优策略以不断优化胜率的过程
例子2:判断某个动物的种类
目标T是进行动物的分类工作。表现P是在采用特定的特征指标(如耳尖形状、眼窝大小等)进行判断时的识别准确率;经验E是在经过大量次实践总结出的一定的规律性。
机器学习的本质是从大量分类结果(E)中学习,并通过优化分类标准来持续提高正确的分类比例。
例子3:预测某个股票的涨跌
任务T:分析股票价格走势
表现P:采用某种技术指标(如15天线、30天线等)进行筛选时的表现;
经验E:通过长期数据积累所获得的经验
即机器学习其本质是通过反复训练从数据中提取模式并优化判断依据以提高预测准确性
2. 机器学习的种类
机器学习主要包含两大类:监督型学习(supervised learning)和非监督型学习(unsupervised learning)
2-1 有监督学习:
简单来说,“有监督学习”的意思就是说,“带有正确答案的学习材料中包含待解答的问题,在掌握了问题与对应答案之间的规律后(比如‘XX情况下的答案是OO’),通过测试不同场景下答题者的应用效果(即答题准确率如何)。这个过程能够帮助我们评估在面对新问题时解决问题的能力。”
而严格地说,在有监督学习中,模型是从包含输入样本及其对应的目标标签的数据集(即训练数据集)中被训练出来的或被建立起来的一个映射关系,并基于所建立的模式对未知的数据进行预测的一种机器学习方法。
有监督学习具有两个主要应用场景:回归分析(regression analysis)与分类分析(classification analysis)。在此节中我们将会深入探讨这两种核心概念及其实际应用,并简要介绍它们的基本框架:回归分析(regression analysis)通常被称为"预测分析"(predictive analysis),其核心是基于模型对结果进行推断与预测;而分类分析(classification analysis)则侧重于对二元分类结果的问题解答或多元分类情况下的归属判定;例如,在动物分类任务中识别为猫、狗或兔等;又如股票价格走势判断中的涨跌预判等场景;其输出结果多呈现为离散型类别标签形式。
2-2 无监督学习:
有监督学习是一种带有标准答案的学习方式(如分类任务),而无监督学习则是在没有预先设定的答案情况下对数据进行分析处理(如聚类分析技术Clustering),它不具备反馈机制的学习方法。初次接触这类问题可能会感到有些困惑:如果缺乏明确的答案指引该如何进行学习呢?其实这是可行的:即使无法得知正确答案到底是什么,在这种情况下我们依然可以通过观察数据间的相似性来进行分类与归纳总结;此外无监督学习还能够揭示数据间的潜在联系性(Association),例如在电子商务中推荐系统会向用户提示"购买了这个产品的顾客还倾向于购买哪些商品"这样的信息提示;这些正是无监督学习的核心应用价值所在。在后续章节我们将深入探讨聚类与关联分析的具体方法论与应用场景并结合实际案例具体阐述其基本概念与核心原理。
3. 预告:
下一节主题——损失函数(loss function)
