[机器学习]-1 概要介绍
1 理论来源
机器学习理论是参照人类学习链条:DIKIW模型(数据-信息-知识-智能-智慧)
-数据: 原始的、未经处理的事实和数字。
-信息: 经过处理、整理和结构化的数据,具有意义和上下文。
-知识: 由信息构建而成的模式和规则。
-智能: 运用知识进行决策和解决问题的能力。
-智慧: 智能的高级形式,涉及深刻理解和伦理考虑。
目前非常活跃的人工通用智能(AGI),其目标不仅限于DIKIW转化这一特定领域,在更广泛的领域内都需要展现出通用智能的能力:能够自主学习、推理与决策,并且在涉及情感和社会互动的情况下也表现出智慧;AGI必须能够处理从原始数据到智能应用的全部转换过程包括数据采集、信息提取、知识获取以及应用等环节;智慧层次则涉及道德判断、长期规划以及人类社会的复杂互动等方面;在伦理与道德框架内进行决策成为其核心功能之一;此外AGI系统应具备自我反省与自我改进的能力这是使其持续进化并适应新情况的关键因素
2 定义和概念
机器学习是一门基于算法与统计模型构建计算机系统使其通过数据实现自我学习的学科。旨在使计算机无需显式编程即可自主提升性能的核心任务是提取从数据中提取模型这些模型能够应用于预测分类聚类等多种任务。其实质是解决连续型与离散型问题。
基础概念:
包含用于训练、验证和测试模型的数据的集合
-特征(Features):用于描述数据的属性或变量。
-标签(Labels):监督学习中,用于指导模型学习的目标值。
-损失函数(Loss Function):衡量模型预测结果与实际结果之间误差的函数。
优化算法(Optimization Algorithm):旨在调节模型参数以降低损失函数的算法类群中的一种方法;其中一种典型的实例为梯度下降法。
3 算法分类
1)监督学习(Supervised Learning)
监督学习基于已标记的数据集对模型进行训练,并对新数据执行预测或分类任务。这种学习方法通过提供输入数据及其对应正确输出来引导模型构建输入到输出的关系映射。应用实例包括图像分类用于识别物体类别;语音识别用于转换语音信号为文字;股票价格预测用于分析市场趋势等。
典型算法:
线性回归
逻辑回归
支持向量机(SVM)
决策树
随机森林
k近邻算法(k-Nearest Neighbors, k-NN)
神经网络
2)无监督学习(Unsupervised Learning)
无监督学习基于非标签数据集进行训练以揭示数据的内在结构与模式这种方法无需人工标注的数据模型能够识别出数据的分布规律与重要特征其主要应用场景包括客户分群图像编码以及异常识别
典型算法:
聚类(Clustering),如k-means、层次聚类
主成分分析(Principal Component Analysis, PCA)
独立成分分析(Independent Component Analysis, ICA)
自组织映射(Self-Organizing Maps, SOM)
高斯混合模型(Gaussian Mixture Model, GMM)
3)半监督学习(Semi-Supervised Learning)
半监督学习基于少数量标记数据与大量未标注的数据进行训练,并结合了监督学习与无监督学习的优点,在标注数据数量有限的情况下有效提升模型性能。具体应用场景包括文本分类、图像标注以及生物信息学领域。
典型算法:
半监督支持向量机
图形推理算法
自编码器
4)强化学习
强化学习在与环境的交互过程中,在不断的学习过程中,在探索可能的行为方案时,在逐步优化策略的过程中,在寻求最优策略的目标下实现状态价值或动作价值的学习方法。其显著特点在于能够处理连续决策过程,并能根据反馈机制不断调整策略以适应变化的环境需求。具体应用场景包括:游戏AI领域中的智能行为控制、工业机器人技术中的路径规划与动作控制以及自动驾驶系统中的运动规划与决策机制等。
典型算法:
Q学习(Q-Learning)
深度Q网络(DQN)
策略梯度方法
近端策略优化
5)深度学习
深度学习是一种以人工神经网络为基础构建的机器学习方法;其显著特点是通过多层结构(即深度神经网络)能够高效处理海量数据和复杂的模式识别任务。具体应用领域包括图像识别、自然语言处理以及自动翻译等技术。
典型算法:
卷积神经网络(CNN)
循环神经网络(RNN)
长短期记忆网络(LSTM)
生成对抗网络(GAN)
变分自编码器(VAE)
Transformer最初旨在解决序列到序列的任务而被提出,并基于编码器-解码器架构设计而成。该模型凭借其强大的自注意力机制和高效的并行计算能力,在处理长程依赖关系及大规模数据流方面展现出卓越性能。
4 评估指标
评估指标是用来衡量模型性能的重要工具,并有助于我们更好地理解和比较模型的预测能力
1)分类问题的评估指标
准确率(Acuracy):正向预测的数量占总样本量的比例
{Accuracy} = {TP + TN}/{TP + TN + FP + FN},适合于类别分布较为均衡的数据集,在面对类别不平衡的 datasets 时可能会导致误导
1.2)精度(Precision):预测为正类样本中实际为正类的比例。
{Precision} = {TP}{TP + FP},当关注减少假阳性时(如垃圾邮件过滤)。
1.3)召回率(Recall):实际为正类样本中被正确预测为正类的比例。
{Recall} = {TP}{TP + FN},当关注减少假阴性时(如疾病检测)。
1.4)F1分数:精度和召回率的调和平均值。
在平衡精度与召回率的需求下,
\text{F1 Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision + Recall}}
尤其适合于面对类别分布不均衡的情况。
1.5)AUC-ROC(Area Under the ROC Curve):该指标代表了ROC曲线下面积(Area Under the ROC Curve),用于评估分类模型的整体性能(performance)。通过绘制不同阈值下的召回率(recall)与假阳性率(false positive rate),可以清晰展示分类器在各种判别标准下的表现特征(characteristics)。该指标数值越接近1,则表明分类器具有更好的判别能力;当数值为0.5时,则说明其判别能力相当于随机猜测(equivalent to random guessing)。
2)回归问题的评估指标
2.1)均方误差MSE:预测值与实际值之间的平均平方差,强调较大误差。
2.2)均方根误差:MSE的平方根,更直观地反映预测误差的实际大小。
2.3)平均绝对误差:预测值与实际值之间的平均绝对差。
2.4)R平方值:它具体地反映了模型所能够解释的目标变量方差的比例关系,并且从多个角度对回归模型的拟合效果进行了具体评估。
5 主要步骤
1)数据收集:获取足够的、有代表性的数据。
2)数据预处理:清洗、转换和规范化数据,处理缺失值、异常值等问题。
3)特征工程:选择、提取和创建有意义的特征。
4)模型选择:选择适合于具体任务和数据特点的模型。
5)模型训练:使用训练集训练模型,调整模型参数以最小化损失函数。
6)模型评估:使用验证集评估模型性能,选择最佳模型。
7)模型部署:将模型应用于实际场景,进行预测或决策。
8)模型监控与更新:在实际应用中监控模型性能,定期更新和改进模型。
