机器学习?有无监督、弱监督、半监督、强化、多示例学习是什么
什么是机器学习?
关于机器学习的定义存在多样性,在学术界尚未达成共识。对于进一步了解这一领域的人士来说,请参考知乎平台上的相关讨论问题https://www.zhihu.com/question/33892253。该问题解答区中既有严谨的专业分析又有风趣幽默的观点分享。
“人工智能系统识别数据中的规律的能力”(Goodfellow)
“不通过显式编程实现的情况下探索让计算机具备自主学习能力的方法。”(1959 Arthur Samuel)
“机器学习这门学科的核心关注点在于:通过经验积累提升任务性能水平。”(1998 Mitchell)
“对于特定任务类别T及其性能评估标准P,在基于经验数据集E进行训练学习后逐步优化自身能力的技术,则被称为机器学习算法。”(1998 Tom Mitchell )
就比如说,在解决小鼠识别的问题时,并不采用程序化的指令式训练方式来教导计算机关于小鼠的基本特征(如四条腿、肥大的头和突出的大耳朵),而是让其基于经验数据的学习过程逐步掌握不同类别的识别标准;随后经过反复训练优化后使模型能够分辨出属于或不属于小鼠的对象。
显然我的示例仅限于有监督学习的一个案例。然而事实上还存在半监督学习、弱监督学习以及无监督学习等多种形式都属于机器学习领域的问题。
涵盖以下几种主要方法:supervised learning(监督学习)、unsupervised learning(无监督学习)、reinforcement learning(强化学习)、weakly supervised learning(弱监督学习)、semi-supervised learning(半监督学习)以及multi-example learning(多示例学习)。
机器学习的概念逐渐深入人心,在现实生活中社会群体也会根据遇到的问题进行归类分析。其中最主要的是监督学习、无监督学习以及强化学习。
监督学习(supervised learning): 给定一组带标签的数据,在通过训练智能算法的过程中建立从输入数据到对应标签的映射关系的过程被称为监督学习。作为机器学习领域中占据核心地位的一项核心技术,在实际应用中我们通常将其统称为分类任务是机器学习中的核心议题之一。例如,在一张张图片中识别出哪些属于"猪"这一类别时就需要运用这一技术原理:通过构建分类模型并利用提供的样本对未知图像进行识别判断就可以实现这一目标。
无监督学习(unsupervised learning): 给定一组数据且没有标签信息的情况下,在遵循特定准则的前提下训练一个智能系统。该系统将所有数据划分为若干类别。与有监督学习相比,在无监督学习中实现同类数据识别是一项较为复杂的技术问题。所谓的"准则"通常指的是基于特征空间的距离最近原则:人们认为同类事物应具备的一些特征。例如,在猪与鸵鸟混杂的情景下(或者混合群体中),算法会测量动物的高度并发现大部分动物集中在两个不同的高度范围上——其中一类动物身高约一米左右(鸵鸟),另一类则相对矮小(猪)。根据上述原则进行分类后会发现:75厘米以上的个体被归类为较高的鸵鸟群体;而低于75厘米的则被认为是矮小的猪群体。然而这种分类方法也会出现例外情况:如某些身材矮小的鸵鸟或体型高大的猪可能会被错误地归类到对应的群体中
强化学习(reinforcement learning): 强化学习是一种机器智能系统,在无需人工干预的环境中通过不断尝试和错误逐步优化完成特定任务的过程。其核心在于存在明确的目标和评判标准。例如,在象棋游戏中我们可以无法立即判断每一步的正确性;但是根据最终结果的好坏来判断。如果算法这样走最后的结果是胜利,则会记录下来并记住这种策略;而按照这样的路径导致失败,则会避免采取同样的行动。
弱监督学习(weakly supervised learning): 已知数据与其对应的弱标签X(即X与真实标记Y之间存在一一对应关系),训练一个智能算法模型f: X \rightarrow Y的过程。其中强弱程度则取决于标签所包含的信息量大小(与分割标注相比而言)。例如,在图像分割任务中分类级别的标注(如"含有一只猪")即为较弱的标注;而具体指出猪的位置以及猪与背景分界线的位置,则属于利用弱监督学习从已知若样本(即仅给出若样本)中学习得到强标注的问题。
半监督学习(semi supervised learning):已知一部分数据与其对应的另一部分数据之间存在一一对应的关系,并且有一小批的数据其对应的类别信息尚不明确。在此基础上通过训练一个智能算法来建立映射关系:该算法的任务是将输入的数据映射到相应的标签。这一过程通常涉及有监督学习与无监督学习的优势结合起来的应用。例如,在医院中对患者的检查记录进行分析时医生也需要一定的时间来判断患者是否健康的状况这可能意味着只有少数几个样本具有明确的健康或非健康标记而其他样本则没有明确的标签信息通过这种方式半监督学习能够有效地利用有标记和无标记的数据来进行分类任务并展示出比纯有监督或无监督方法更好的性能特点。
多示例学习(Multiple Instance Learning) : 在机器学习领域中的一种技术称为多示例学习(Multiple Instance Learning),其核心思想是基于包含多个样本的数据集进行分类。具体而言,在这种设定下已知的是一个包含多个实例的数据包及其对应的标签,在有的问题中还同时给出该数据包内每个实例的具体标签信息。例如,在计算机视觉领域中一段视频通常由数百张图像组成(如1000张图像),假设我们希望判断这段视频中是否出现过猪这个类别物体,则逐帧标注每一帧是否存在猪将是一个耗时的过程;因此人们通常会简单地判断整个视频是否存在猪或者不存在猪两种情况即可满足需求——即如果至少存在一帧图像中含有猪,则标记该视频为含有猪;只有当所有帧图像中都没有发现猪才标记为无猪状态;基于这些训练样本的学习任务就是从这1000张图像组成的视频数据集中识别出含有猪和无猪两类 videos 的问题。
