Advertisement

AI-基本概念-无监督学习、监督学习、强化学习

阅读量:

1 需求


2 接口


3 示例

  1. 监督学习(Supervised Learning) * 定义 :监督学习是一种机器学习方法,它使用标记的训练数据来学习输入(特征)和输出(标签)之间的映射关系。在训练过程中,模型会根据给定的输入特征和对应的正确输出标签进行学习,通过调整模型的参数,使得模型在面对新的输入时能够准确地预测出相应的输出。
    • 示例
      • 图像分类是监督学习的一个典型例子。例如,有一个包含猫和狗图像的数据集,每张图像都被标记为 “猫” 或 “狗”。模型会学习图像的各种特征(如颜色、纹理、形状等)与类别标签之间的关系。当输入一张新的猫或狗的图像时,模型能够预测出它是猫还是狗。
      • 房价预测也是监督学习的常见应用。我们可以使用房屋的面积、房间数量、房龄等特征作为输入,房屋价格作为输出标签。模型通过学习这些带有价格标签的房屋数据,来预测新房屋的价格。
    • 常用算法
      • 线性回归(Linear Regression) :用于预测一个连续的数值输出。它假设输入和输出之间存在线性关系,通过最小化预测值和真实值之间的均方误差来学习模型参数。例如,根据广告投入来预测产品销售额,广告投入是输入特征,销售额是连续的输出,线性回归可以找到两者之间的线性关系。
      • 逻辑回归(Logistic Regression) :主要用于分类问题,特别是二分类问题。它输出的是一个概率值,表示输入属于某一类别的可能性。例如,判断一封邮件是否是垃圾邮件,输入是邮件的各种特征(如发件人、主题、内容等),输出是 “是垃圾邮件” 或 “不是垃圾邮件” 的概率。
      • 决策树(Decision Tree) :以树状结构来表示决策规则。它通过对特征进行划分来构建决策路径,每个节点代表一个特征的判断,叶子节点代表类别或数值。例如,在判断水果是苹果还是橙子时,可以根据颜色、形状等特征构建决策树来进行分类。
      • 支持向量机(Support Vector Machine,SVM) :通过寻找一个超平面来划分不同的类别,使两类数据点之间的间隔最大化。它在高维空间中也能有效地进行分类。例如,在基因数据分类中,SVM 可以根据基因表达特征来区分不同类型的细胞。
  2. 无监督学习(Unsupervised Learning) * 定义 :无监督学习是在没有给定明确标签的情况下,对数据的内在结构和规律进行学习的方法。它的目标是发现数据中的模式、相似性、聚类或者异常等信息。
    • 示例
      • 聚类分析是无监督学习的重要应用。例如,在客户细分中,我们可以根据客户的购买行为、年龄、收入等多种特征,将客户划分为不同的群体,而不需要事先知道这些群体的名称或标签。比如,可能会划分出高消费年轻群体、节俭老年群体等不同的聚类。
      • 数据降维也是无监督学习的一个方面。例如主成分分析(PCA),它可以将高维数据转换为低维数据,同时保留数据的主要特征。对于一个包含很多特征的图像数据集,PCA 可以提取出最能代表图像变化的几个主成分,从而简化数据表示并且有助于后续的分析和可视化。
    • 常用算法
      • K - 均值聚类(K - Means Clustering) :它将数据点划分为 K 个聚类。算法首先随机初始化 K 个聚类中心,然后将每个数据点分配到最近的聚类中心,接着更新聚类中心的位置,不断重复这个过程直到聚类中心不再变化或者达到预定的迭代次数。例如,在市场细分中,将消费者的消费行为数据进行聚类,找出不同的消费群体。
      • 层次聚类(Hierarchical Clustering) :它构建了一个聚类的层次结构。有两种主要的方式:凝聚式和分裂式。凝聚式是从每个数据点作为一个单独的聚类开始,然后逐步合并相似的聚类;分裂式则相反。这种方法可以得到不同粒度的聚类结果,比如在生物分类中,可以根据物种的相似性构建从细到粗的分类层次。
      • 高斯混合模型(Gaussian Mixture Model,GMM) :假设数据是由多个高斯分布混合而成的。它可以用于对数据进行聚类和密度估计。例如,在语音识别中,不同的语音信号可以看作是由多个高斯分布混合而成的,GMM 可以用于识别不同的语音模式。
  3. 强化学习(Reinforcement Learning) * 定义 :强化学习是一种智能体(agent)在环境(environment)中采取一系列行动(action),以最大化累积奖励(reward)的学习方法。智能体通过与环境进行交互,根据环境反馈的奖励信号来学习最优的行为策略。
    • 示例
      • 机器人控制是强化学习的一个典型应用。例如,一个机器人在一个充满障碍物的房间中,它的目标是从起点到达指定的终点。机器人每次采取一个行动(如向前移动、转弯等),环境会根据机器人的行动给予奖励(如到达终点给予高奖励,碰到障碍物给予负奖励)。通过不断地尝试和学习,机器人可以找到从起点到终点的最优路径策略。
      • 游戏也是强化学习的常见场景。以玩围棋为例,智能体(围棋程序)在棋盘这个环境中通过落子(行动)来与对手交互,最终的胜负结果(奖励)会引导智能体学习更好的下棋策略。
    • 常用算法
      • Q - 学习(Q - Learning) :它是一种基于值函数的强化学习算法。Q - 学习算法通过学习一个 Q - 表(Q - table)来记录每个状态 - 行动对的预期奖励值。智能体在每个状态下选择具有最高 Q 值的行动,并且根据环境反馈的奖励来更新 Q 值。例如,在一个简单的迷宫游戏中,智能体可以通过 Q - 学习来学习如何最快地走出迷宫。
      • 深度 Q - 网络(Deep Q - Network,DQN) :它将 Q - 学习与深度学习相结合。使用神经网络来近似 Q - 函数,能够处理高维的状态空间和复杂的决策问题。例如,在复杂的视频游戏中,DQN 可以学习到如何有效地控制游戏角色来获得更高的分数。
      • 策略梯度方法(Policy Gradient Methods) :它直接优化智能体的策略函数,而不是像 Q - 学习那样通过值函数来间接学习策略。通过计算策略梯度,根据奖励信号来调整策略参数,使得采取的行动能够获得更高的奖励。例如,在自动驾驶中,策略梯度方法可以用于学习车辆的驾驶策略,以最小化碰撞风险并高效地到达目的地。

4 参考资料

全部评论 (0)

还没有任何评论哟~