【机器学习与Python实践·一】概述:机器学习到底是在干什么?
1.1问题导向框架

实际问题: 明确目标方向,并涉及相关数据集以支持决策制定。
模型/方法: 现有的相关技术方案主要可分为三类:监督学习算法用于有标签数据的学习过程;无监督学习方法则适用于无标签数据的模式识别;强化学习则模拟智能体与环境互动以优化策略。
解决方案: 方案将包括提供一个基于统计建模的方法系统性报告内容,并结合数据分析软件辅助决策过程。
建模过程: 将实际问题与需求进行转换, 使其能够以数学语言与统计语言加以描述, 并在模型集合中寻找到适合解决这一问题的方法。
实现过程: 编写程序, 针对特定的实际情境进行处理。
⚠️垃圾邮件识别与量化交易投资之间存在显著的差异性:
1、在垃圾邮件识别领域:核心问题是 根据邮件信息(标题特征、正文内容、发送者信息)实现垃圾邮件的识别与过滤操作;采用的技术手段 主要包括监督学习算法(如SVM、回归模型等),解决方案设计 是将程序功能集成到现有的邮件系统中;建模流程 包括特征提取与选择、模型构建以及评估验证步骤。
2. 而量化交易投资则侧重于动态市场分析与风险控制策略的设计。
2、量化交易:实际问题 是基于市场历史数据(如股价数据、财务报表等)预测未来一段时间内的市场走向;而这一目标可通过采用监督学习或强化学习算法作为基础来实现;最终的解决方案即为一个连接至实盘系统并执行自动买卖指令的应用程序。
二者区别在于,垃圾邮件识别的数据的信噪比很高,特征非常明确,靠人眼观察也是可以完成的;而量化交易所在的金融市场信噪比很低,数据中大量的噪声和随机误差导致很难解释其预测准确性,换句话说金融市场信息的特征是非常杂乱的,特征提取很困难,也很难真正判断是什么因素影响了股票走势。
此外,技术开放程度也是二者区别很大的地方,垃圾邮件识别此类应用领域的竞争壁垒在于数据的积累和业务方面而并非技术,(因为技术很公开也很好实现)。而量化交易的有效策略是不可能公开的,公开意味着快速失效,因此技术的交流比较封闭。
1.2数据挖掘、机器学习、人工智能 三者区别
数据挖掘 通常指从大量数据分析中提取特征、模式以及有价值的信息的过程。它包含数据预处理以及初步展示等基本工作,并且特别强调在建模阶段运用机器学习与统计模型来探索大数据中的潜在信息与模式。
机器学习 从理论与实践两个维度展开研究。理论重点在于探讨求解方法及其对应的算法构造与效率问题;而实践则关注实际应用效果评估。其根本目标是通过提升算法性能表现来实现更好的实际应用效果。

人工智能 是一个非常广泛的概念,源自20世纪50年代,经历了1970年代中期和1980年代末至1990年代初两个阶段的低谷期,随后在统计学习方法崛起(支持向量机、集成决策树)以及深度学习技术蓬勃发展(神经网络、强化学习)下实现了三次复兴
关于统计学习这一概念,则是从数据驱动的角度进行研究方向的选择,并致力于探讨变量间的分布特征及其相互关联情况。举例而言,在模型参数估计方面,则会关注该估计具有的多个特性包括一致性、无偏性以及服从正态分布等特性,并非受限于所采用的具体算法类型。具体而言,则可以观察到极大似然估计方法具备渐近正态性和渐近有效性等特性;然而这些特性与极大似然估计的实际求解过程则并无直接关联
1.3 机器学习的分类
必须提到的是:“学习”本身是一个建模过程,其中包括三个要素:
- 模型(数据生成过程)
- 目标函数式
- 估计策略或算法(具有通用性)
根据学习目标的不同可分为:监督学习、无监督学习、强化学习; 根据层级的不同可分为:浅层学习、深度学习

案例标题:垃圾信息识别(尚未完成) 参考资料: https://www.leiphone.com/category/yanxishe/YkBwwc4HeXq76eS3.html
声明:本文在参考人民邮电出版社黄勉所著的《机器学习与Python实践》一书中获取相关知识。本文仅限于个人学习笔记的分享
