人工智能机器学习
一、概述
机器学习是人工智能的重要研究领域之一。
1.机器学习的基本概念
要了解什么是机器学习,则可以从人类的学习说起。可以说人们每天都进行着各种形式的学习活动。可是究竟什么是真正的"Learning"?至今仍然没有一个统一而被广泛接受的科学定义。以下是一些有关Learning较为有影响的不同观点和定义:
西蒙的观点表明:学习即为系统中适应性变化的本质;这种现象表明:当系统反复执行相同或相似的任务时;其表现会更加高效
- 米哈尔斯基认为,学习是对经历描述的建议和修改。
蔡普金主张学习是一个过程,在此过程中, 通过不断引入信号并进行反馈调节使得该系统对于特定输入产生相应的反应
基于不同观点的综合分析表明
机器学习的定义是以人类的学习行为为依据建立起来的概念。由于没有统一的定义而无法给出严格定义。作为一门学科来说, 机器学习研究的是如何让计算机模仿人类的学习活动。
机器学习的主要研究内容:
认知模型研究的核心任务是通过模拟人类学习机制来根本性地解决机器学习领域中的各种问题。
其核心目标在于通过理论研究深入探讨多种学习策略,并从而构建出一套独立于具体应用场景的学习算法。
该研究的主要目标是根据特定任务的需求来构建相应的学习体系。
2. 机器学习的发展历史
机器学习的发展大致经历了四个阶段
热烈时期
20世纪50-60年代初期,“神经网络”的关键里程碑式的研究是由罗森勃拉特于1957年提出的感知器模型所推动的。这一时期的特征是无需预先设定已知的知识结构,并专注于自主学习机制的研究。其核心目标集中在自主学习机制的研究上。
冷静时期(Cold War)是指从1963年到1975年期间的世界政治格局特征。这一时期的中心议题是模仿人类概念学习的过程展开研究,并取得了显著成果。其中最突出的研究成就是温斯顿提出的结构化学习模型以及海斯与罗斯等人建立的基于逻辑归纳的学习理论。
•复兴时期
20世纪70年代至80年代之间(尤其以70至80年代为主),人类开始将机器学习技术逐步应用于各个实际领域,并特别关注于专家系统在知识获取过程中的需求和发展趋势
•蓬勃时期
自1986年以来, 人工智能技术迎来了新的发展阶段. 神经网络研究的再度兴起推动了机器智能向深度认知方向发展, 同时传统的人工智能方法也取得了显著的进步. 因此, 在符号与连接学习结合下形成的混合型智能系统研究已成为当前人工智能领域的重要前沿方向. 随着新阶段的到来, 在这一时期的智能技术主要呈现出以下特点:
-
机器学习已经成为新的边缘学科,并在高校形成 一门课程。
-
结合各种学习方法,取长补短的多种形式的集成学习系统研究正在兴起。
-
机器学习与人工智能在各种基础问题上的统一观点正在形成。
不同学习策略的应用领域不断扩展,并有一部分逐渐转化为商品。归纳出的知识获取工具已广泛应用于诊断分类专家系统。连接学习则在语音识别和图像识别领域占据主导地位。遗传算法与强化学习在工程控制领域展现出良好的应用前景。
研究领域正掀起知识发现与数据挖掘的热潮,并在生物学、金融管理以及商业销售等多个领域均得到了广泛的应用,并推动了机器学习技术的快速发展
与机器学习相关的学术活动极为活跃。国际上除了每年举办一次机器学习研讨会外,还有计算机学习理论会议以及遗传算法会议。
3. 学习系统的基本模型
机器学习算法的实现依赖于学习系统,它基于分析历史数据和环境交互记录来获取信息,并通过这些信息使机器学习算法的学习能力得以提升。
具备了相应的功能。
在本研究中采用的学习系统核心框架如图所示。
在该系统中所处的环境主要由外部信息源提供数据支持。
在这一阶段中, 系统通过数据处理和分析机制将外部输入转化为可应用的知识。
为了高效管理这些信息, 在构建阶段我们采用了一种结构化的存储方案。
在执行阶段中, 基于获取的知识模块会对具体任务进行评估与优化, 并根据结果反向更新相关的知识点
4. 学习策略
机器学习的学习过程与推理过程紧密相关,在分析不同推理方法的基础上可以将机器学习的学习策略划分为记忆性策略、类比性策略、指导性策略、演绎推理策略、归纳推理策略以及关联性策略等多种类型
二、记忆学习
称为机械式记忆的学习方法。这种技术属于最基础的机器学习算法之一。它主要以记忆为基础,在训练阶段通过存储已学的知识并在需要时进行检索与调用操作。其显著特征在于能够避免重新计算或逻辑推理的过程。在这样的系统中,知识的获取通常会通过相对稳定的途径进行,并且无需过多复杂的处理步骤。
记忆学习的核心步骤是:每当解决一个问题时, 系统会存储该问题及其解答方法. 下次遇到类似的问题时, 系统无需重复计算而可以直接调用之前记录的解决方案.
若将执行元素类比于函数𝑓 f ,则由环境获取到的输入模式标记为(𝑥₁,𝑥₂,…,𝑥_𝑛),经𝑓 f运算后所得输出模式标记为(𝑦₁,𝑦₂,…,𝑦_𝑚);则机械学习系统即旨在处理这些输入输出模式对:
[(𝑥1,𝑥2,…,𝑥𝑛) ,(𝑦1,𝑦2,…,𝑦𝑚)][(x1,x2,…,xn) ,(y1,y2,…,ym)]
将知识存储于数据库中,在后续需求下可以直接调用(𝑦₁,𝑦₂,…,𝑦_𝑚)(y₁,y₂,…,y_m)函数值而无需重复运算。其结构如图所示。
三、归纳学习
归纳推理作为认知工具被用来进行归纳学习。其基本思路即是通过分析一组典型事例来总结普遍适用的认知规律的过程。在有无指导教师的情况下可以划分为两种主要的学习模式:一种是基于实例的学习方式(案例教学法),另一种则是通过观察与实验探索规律的学习方式。
1.示例学习
以具体实例为基础的学习方式称为示例学习或案例学习,在人工智能领域中这一方法具有重要的应用价值。其本质是在环境中通过多个相关实例进行分析与研究之后归纳总结出一般性概念的学习过程。帮助学生区分不同类别时会用到的正是反例这一重要工具,在这一过程中学生能够更好地理解并掌握所学知识的内涵与外延范围,在实践中也会更加注重区分不同类别对象之间的细微差别以便做出准确判断
该模型基于以下原理构建:其过程包括:首先建立一个包含典型样本的数据集;随后通过引入专家知识对其进行指导;接着利用自监督学习方法生成潜在特征表示;进而从同一空间中选取更多样本对其进行验证;直至获得具有实用价值的知识为止。该模型的空间构建如下图所示
基于示例的学习方法是一种重要的研究范式,在这种范式下构建的空间模型由两大核心空间和两重核心流程构成。其中包含四个关键要素:示例空间、规则空间;解释流程与验证机制。其中,
我们通过系统提供的教学实例所构成的集合体就是示例区域;而通过分析获得的知识形成的过程即为解释流程;
规则区域则包含了事务系统内固有的各项规律;在验证环节中,则是从现有的案例库中选取新的样本进行检验并持续优化。
执行过程描述
基于双空间模型构建的归纳学习系统其执行流程大致可分为以下几个阶段:首先施教者向实例空间提供了一系列初始示范例这些示范例在形态上通常与系统预设的推理模式存在差异因此需要将它们转换为系统可接纳的形式随后利用转化后的示范例探索规则空间中的潜在模式因为通常情况下无法一次性在规则空间中提取所需模式所以还需不断补充新的示范例以辅助发现新的模式其中选择合适的示范例作为核心要素程序将优先识别那些对模式识别最有效的示范例并不断优化其内部的知识组织机制最终实现从经验到理论的有效迁移这一完整的学习过程
- 示例空间
在双空间模型中,在双空间模型中
- 规则空间
在知识表示领域中,在知识工程过程中需要明确一系列操作符和术语,并通过这些操作符来描述、表达以及说明知识库中的具体知识内容。
在这一过程中需要解决两个关键问题:一是对构建该系统的前提条件进行基本要求,并通过相应的机制来保证系统的稳定性和可扩展性;二是探索其内部的搜索机制。
在这一过程中需要解决两个关键问题:一是构建该系统的前提条件,并通过相应的机制来保证系统的稳定性和可扩展性;二是探索其内部的搜索机制。
归纳学习方法可分为以下两大类:
典型的单概念学习系统包含米切尔(Tom Mitchell)所提出的基于数据驱动特征空间方法、昆兰(J.R. Quinlan)所设计的ID3算法以及狄特利希(T.G. Dietterich)与米哈尔斯基(R.S. Michalski)共同开发的基于模型驱动归纳算法。
常见的多概念学习方法包括米哈尔斯基的AQ11、DENDRAL以及AM程序等。将多概念学习任务分解为若干个单概念学习任务是可行的。
多维度概念学习与单一知识点的学习主要区别在于其核心任务是解决不同知识点间的冲突或矛盾问题。
变形空间法是米切尔在1977年首次提出的基于数据的学习方法。该方法以整个规则空间作为起始的假设规则集合𝐻𝐻,并根据教师提供的示例信息对集合𝐻𝐻进行调整和优化处理。通过逐步精炼集合中的元素数量和结构特征,在不断逼近所需规则的过程中最终得到只包含要求的那部分规则集合𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷D D D D D D D D D D D D D D DDDDDDDDDDDDDDDDDD. 由于可搜索的空间逐步缩小至较为有限的状态故而得名变形空间法. 具体而言该方法通过将可搜索的空间分为两个子区域𝐺𝐺G G G G G G G G G G G 和𝑆𝑆S S S S S S S S S S来限定目标区域其中子区域𝐺𝐺中的元素代表了可搜索空间中最普遍的概念而子区域𝑆𝑆中的元素则代表了最特殊的概念最终通过在𝐺𝐺与𝑆𝑆之间的所有可能元素组合来构建目标区域
𝐻=𝐺∪𝑆∪{𝑘|𝑆<𝐾<𝐺}H=G∪S∪{k|S<K<G}
在式中符号<<代表变形空间内的偏序关系;米切尔的学习方法被称作候选删除法;该方法将未被数据排除的假设定义为潜在假设;而将所有潜在假设组成的集合H定义为变形空间;总体而言该方法总共分为四个步骤;(1)将𝐻H初始化为空间全集R;此时𝐺G仅包含空描述符∅;而𝑆S则包括了所有最具体的概念集合C;然而为了避免𝑆S过于庞大带来的计算负担;实际操作中我们会默认情况下将𝑆S初始化为空间全集R中的第一个示例属性值
(2)采用一个新的示例进行指导。若该示例为正类,则从𝐺G中剔除所有未涵盖该类别的概念,并将𝑆S重新定义为结合新正例与原有成员的最特异化的概括。若该示例如负类,则从𝑆S中排除所有涵盖该负面概念的具体类别,并相应地对𝐺G进行最小化的特化处理以避免其包含这些负面类别。
(3)重复(2)直到𝐺=𝑆G=S,且使这两个集合都只含有一个元素为止。
(4)输出𝐻H中的概念(即输出𝐺G或𝑆S)。
观察与发现学习主要包含观察学习和发现学习两个方面。其中前者主要用于通过实例进行分类整理,并构建相应的概念描述;而后者则通过探索模式来识别规律并生成相应的规则。
概念聚类:
概念聚类属于一种观察学习方法,由米卡尔斯基(R.S.Michalski)于1980年首次提出.它主要通过将实例按照特定的标准进行分类处理,这些分类结果则对应形成了不同的概念类别.每个分类群则可进一步用来定义具体的概念语义符号描述.
例如对下列事例:
麻雀、乌鸦、喜鹊、鸡、鸭、鹅……可根据它们是否为家禽分为如下两类:
鸟类被定义为{麻雀、乌鸦、喜鹊等};而家禽被定义为{鸡、鸭、鹅等}这两种群体。因此,在这种分类中'鸟类'和'家禽'被视为新形成的类别;它们各自的特征信息也可进一步分析:
“鸟有羽毛,有翅膀,会飞,会叫,野生”
家禽具有毛发、翼膀以及能飞翔和发出叫声等特征,在作为宠物饲养或圈养的情况下,如果能够提取出它们的共同特性并被识别出来后,则能形成'鸟'的概念.
发现学习:
探究式学习是一种自主探究式的学习模式,在没有教师直接指导的情况下,学生能够基于系统性知识体系分析实际案例和数据信息,并总结其中的普遍规律和一般性原则。
四、决策树学习
决策树也被称作判断树,在各个领域中具有极高的实用性。它是一种广泛应用于分类与预测任务中的一种典型的_tree状模型_并因此被视为一种重要的技术基础。决策_tree学习算法有很多种常用的包括_ID3_ID4_C4.5以及_CART等
决策树是一种基于节点和边组成的层级式数据架构用于分类过程建模。每个节点对应对某一特征进行的一次测试判断而每条分支线标识各次测试的结果情况叶子节点则表示某个类别或各类别间的概率分布情况在决策树中从根部到叶子的所有路径组合起来构成了完整的案例分析框架其中每个案例都被分配到特定的目标类别中同时确保了属性间的逻辑关联满足分类需求
五、类比学习
机械学习主要依赖记忆外部材料而非深入理解其内部结构及逻辑推演过程。美国心理学家奥苏伯尔提出了有意义学习这一概念作为机器学习的反面代表其主张新知识符号需与已有认知体系中的相关知识建立非实质性的人为联系此概念可被定义为类比学习运用类比方法能使人们迅速将新旧知识对比分析找出异同进而加深对知识的理解同时构建起完整的知识网络本节将介绍类比学习的基本流程及其几种特殊形式包括属性比较法转换思路法比较派生法以及关联思路法
1.类比学习的基本过程
(1)搜索匹配(2)选择规则(3)建立对应关系(4)更新知识库
2.属性类比学习
属性类比学习基于两个相似事物实现其间的知识转移,在该系统中采用槽结构表征各实体特征,并将关键特征继承至相关联的目标对象上。这一过程涉及从源对象继承关键特征至目标对象,并划分为两个主要阶段:
(1)利用源框架产生若干候选槽。
(2)利用目标框架中的已有信息来筛选由(1)推荐的相似性。
3.转换类比学习
转换类比学习方法源自"中间-结局分析"的发展。该方法通过逐步分析问题的中间环节和最终结果之间的关系来解决问题的基本流程。
(1)把问题的当前状态与目标状态进行比较,找出它们之间的差异。
(2)根据(1)所得到的差异找出一个可减少差异的算符。
(3)当该运算符能够应用于当前状态时,则该运算符将当前状态转换为一个更接近目标的新状态;否则(即当运算符无法应用于当前状态下),将保持现状并生成一个新的待处理的问题实例以便进一步分析解决
(4)当子问题被求解以后,恢复保留的状态,继续处理原问题。
转换类比学习方法由外部环境获取相关知识。学习系统识别旧问题的相关知识,并对这些知识进行适当的转换以适应新问题。它主要由回忆过程和转换过程两个过程组成。回忆过程用于寻找新旧问题的差别,而转换过程则是通过适当变换旧问题的解法以形成求解新问题的方法。
4.派生类比学习
面对一个新的挑战, 将其与原有问题是对应分析的基础; 此基础上提炼出通用解决方案的同时, 又能引发另一个已经解答过的相关议题, 并能从中衍生出新的解决方案; 进而借鉴这两个已被解答的问题的处理方式, 在此过程中识别共性特征以确定解决方案
5.联想类比学习
联想类比学习是将现有领域的知识与待探索领域的知识点进行关联起来的方式,并被认定为一种系统的关联推演策略。
联想类比条件:
同构相似联想
同态相似联想
接近联想
对比联想
模糊联想
类比学习方法主要依据其原理而分为直接类比、拟人类比、象征类比、幻想类比、因果类比、对称类比、仿生类比以及综合类比等八种不同的分类形式。
