《机器学习》(西瓜书)读书笔记(一)
第1章 绪论
1.1 引言
机器学习的核心内容是关于在计算机上从数据中生成模型的算法。
这些算法即为所谓的学习机制。
当遇到新的问题时,在接收了相关经验数据后, 模型能够生成相应的结论。
1.2 基本术语
| 术语 | 解释 |
|---|---|
| 示例 / 样本(instance / sample) | 关于一个事件或对象的描述 |
| 数据集(data set) | 示例或样本的集合 |
| 属性 / 特征(attribute / feature) | 反映事件或对象在某方面的表现或性质的事项 |
| 属性值 (attribute value) | 属性上的取值 |
属性张成的空间 / 样本张成的空间 / 输入张成的空间
| 特征向量 | 空间中的每个点对应的坐标向量 (别称) |
| 维度 | 描述示例所涉及的属性个数 |
|---|---|
| 训练过程使用的数据 | 训练过程中使用的数据 |
| 训练样本 | 训练数据中的每一个具体实例或条目 |
| 训练集 | 所有训练样本组成的集合 |
| 学得模型对应的知识或模式 | 学得模型对应的知识或模式 |
| 潜在规律自身 | 潜在规律自身 |
学习器 | 学习机制在给定数据集和参数设置上的具体化
(模型的别称) |
标签信息 | 基于示例结果的信息
|
--- |
输出空间 | 所有标签集合
分类 | 学习目标为分立类别且属于监督学习的任务
回归 | 学习目标为连续数值且属于监督学习的任务
二分类 | 仅分为两类的任务
--- |
正类别 | 二元分类中的一个类别
负类别 | 二元分类中的另一个类别
模型评估过程 | 利用学得模型对输入数据进行推断的过程
测试样本/示例/案例** | 被用来评估模型的对象/实例/案例**
聚类(clustering)| 将训练数据划分为多个组别
无监督学习的代表 |
| 簇(cluster) | 训练数据中的每个组别 |
|---|---|
| 无监督学习(unsupervised learning) | 学得过程不依赖于标记信息的任务 |
| 泛化(generalization)能力 | 学得模型能够适用于新样本的能力 |
注
1.3 假设空间
- 归纳(induction) 基于具体实例的"推广"(generalization)过程;即通过训练数据实现广泛的"知识获取"。
- 演绎(deduction) 基于基本原理的"特化"(specialization)过程;即依据基础理论进行"具体应用"。
- 归纳学习 (inductive learning) 通过训练数据实现广泛的学习。
- 概念学习 / 概念形成 通过训练数据获取概念 (concept) (狭义上的归纳学习)。
我们可以把学习任务视为一个位于由所有假设(hypothesis)构成的空间中进行探索的过程。这个过程的目标是定位到能够与训练集一致(fit)的假想模型。一旦确定了假想的表现形式,则该假想空间及其规模也就随之确定下来。为了实现这一目标,我们可以采用自顶向下、从一般到特殊或是自底向上、从特殊到一般等多种策略用于探索这一假想空间……最终收敛至能够完美契合训练集结果的一个特定假想模型。
- 版本空间(version space) 与训练集一致的多个假设的集合。
1.4 归纳偏好
- 归纳偏置(inductive bias, 简称偏好) 在机器学习中, 学习过程中的归纳偏置反映了模型对不同函数类别的倾向性, 可以理解为模型在面对可能极其繁复的函数空间时所采取的一种选择策略或价值取向。
- 奥卡姆剃刀(Occam’s razor) 是一种被广泛采用的基本原则, 在自然科学研究中具有重要作用。
- “没有免费的午餐”定理(No Free Lunch Theorem, 缩称为NFL定理) 表明, 不管是哪个学习算法a声称自己更智能, 还是哪个算法b声称自己更笨拙, 它们的期望性能最终都会达到相同的水平。
不言而喻的是,在缺乏具体应用场景的情况下对算法性能进行评价并无实际意义;深入理解算法所固有的归纳偏好对于判断其适用范围至关重要
1.5 发展历程
机器学习
| 时间 | 发展概况 | 代表性工作 |
|---|---|---|
| 1950年 | —— | 图灵在关于图灵测试的文章中,提到了机器学习的可能 |
| 二十世纪五十年代初 | 已有机器学习的相关研究 | A.Samuel著名的跳棋程序 |
在20世纪50年代后期至60年代初,“连接主义”方向的学习开始出现
从样例中学习
| 时间 | 发展概况 | 代表 |
|---|---|---|
| 二十世纪八十年代 | 一大主流是符号主义学习 | 决策树(decision tree)和基于逻辑的学习 |
| 二十世纪九十年代中期之前 | 另一主流技术是基于神经网络的连接主义学习 | D.E.Rumelhart等人重新发明了BP算法 |
90年代中期,“统计学习”(statistical learning)开始在学术界迅速崛起并在统计学领域占据主导地位。
该方法包括支持向量机(Support Vector Machine, 简称SVM),以及更为广泛使用的核方法。
与此同时,在21世纪初,“神经网络技术重现辉煌”,
这使得连接主义学习卷土重来,
并且以深度学习为标签的学习热潮不断涌现。
1.6 应用现状
puter science的主要分支包括多媒體圖形處理、網路通訊、軟體工藝、硬體系統結構以及集成电路設計等領域;其中 particularly important branches include計算機視覺和自然語言處理等
为多个交叉学科建立关键技术支持;生物信息学的探索、基因组计划的推进以及基因药物的开发等;
*现代人类社会的政治活动
例如,在2012年美国大选期间,奥巴马领导下的机器学习团队为他提供了竞选策略支持。
生活中涉及的各个方面包括气象预测、能源勘探技术、环境监测系统、信息检索平台以及自动驾驶技术等;
- ……
