Advertisement

【论文笔记】AutoML: A survey of the state-of-the-art(上篇)

阅读量:

目录

  • 尝试一句话总结

  • 标题

  • 0. Abstract

    • 摘要解读
    1. 引言
  • 数据准备过程 数据准备阶段

  • 特征工程设计 特征工程部分
    3.1 特征筛选策略
    3.2 特征构建方法
    3.3 特征提取流程

    • 本篇暂时到这里,在下一篇中记录这篇文章的重点。

多说点闲话,在我去年九月读过的一篇综述文章中提到了AutoML领域的一些入门知识。这篇博客算是我对这篇文章的一个回顾与总结。由于原文较长(正文共二十多页),为了节省篇幅,在介绍正文部分时我主要选取了一些重点内容进行阐述,并非全部翻译。

由于篇幅限制,在文章中我将其分为上下两部分进行介绍:上文主要涵盖了原文的第1-3章内容(属于经典机器学习范畴),下文则着重介绍本文的核心重点。

论文笔记

论文笔记

尝试一句话总结

本文简要回顾了深度学习技术的发展历程。从最初的人工特征提取阶段(即特征工程),发展至构建深度神经网络阶段,并随后详细探讨了其构成要素。为了提升自动化的效率与性能,在这一过程中分析了几种具有代表性的模型及其应用。特别值得一提的是,在这两个基准数据集上进行了全面评估与总结。

原文链接(可能需要科学上网)

标题

AutoML: A survey of the state-of-the-art
自动机器学习:最新的综述

0. Abstract

深度学习(DL)技术已在多种任务中取得了显著成效

其中包括图像识别
、目标检测以及语言建模等方面

然而

在特定任务中构建高质量的深度学习系统依赖于专业知识的帮助

并因此限制了其广泛应用

与此同时

在不依赖人工干预的情况下实现深度学习系统的自动化(即自动机器学习技术)
被视为一种有前途的方法

并受到广泛关注

本文旨在提供对当前自动机器学习技术发展的一个深入分析

基于深度学习管道框架(DL pipeline)

我们介绍了自动机器学习方法(包括数据预处理、特征工程、超参数优化以及神经网络架构搜索——NAS)

其中对神经网络架构搜索方法进行了重点介绍

我们总结了代表性的NAS算法在CIFAR-10和ImageNet数据集上的性能表现

并对NAS方法中的以下主题进行了进一步探讨:
单阶段/双阶段NAS方法
、一剪涂 NAS方法
以及联合超参数与架构优化等主题

最后还讨论了一些与现有自动机器学习方法相关的开放问题以供未来研究探讨。

摘要解读

深度学习技术在图像识别、目标检测以及语言建模等多个领域均取得了显著的效果。然而,在特定领域构建高质量深度学习系统需要大量的人工干预与专业知识积累,并因而限制了其广泛应用程度。与此同时,默认机器学习(AutoML)作为一种具有巨大发展潜力的技术正在获得越来越多的关注与研究工作。本文旨在提供一份最新的综述性文献综述报告,在现有研究中已取得最优成果(SOTA)的基础上进行了深入探讨与总结。在此基础之上我们提出了一个全面的 AutoML 框架——基于深度学习(DL)管道这一核心理念——并着重聚焦于神经架构搜索(NAS)技术这一前沿方向。通过对当前 NAS 方法中最具代表性的算法进行评估分析我们系统地总结了这些算法在基准数据集CIFAR-10与ImageNet上的性能表现并深入探讨了 NAS 技术的核心要素包括但不限于:一阶段 NAS 与两阶段 NAS 策略一次性 NAS 方法联合超参数与架构优化策略以及资源感知型 NAS 技术体系等关键问题。最后本文还对当前 AutoML 相关研究中存在的若干开放性问题进行了论述以期为后续研究工作提供参考与借鉴

1. Introduction

近年来,在各个领域中深度学习的应用日益广泛,并成功解决了众多具有挑战性的任务。然而,在这一过程中出现的问题使得传统的人工化工作显得力不从心——尽管如此,在当前阶段这些人工化工作仍然占据着重要地位,并且其复杂度往往超出了普通开发人员的能力范围。因此,在这一背景下出现了自动化机器学习(AutoML)这一概念

在这里插入图片描述

如图1所示,在AutoML框架中包含了四个主要环节:数据准备、特征工程、模型生成与模型评估。其中模型生成过程又可分为两个子环节:一是搜索空间设定与二是优化策略选择。搜索空间涉及机器学习模型的设计原则,并可划分为两类:传统类机器学习模型(如支持向量机SVM与k近邻分类器KNN)与神经网络架构;而优化策略则主要包括超参数调优与结构设计两大部分。超参数调优涉及对训练相关参数的选择(如学习率与批量大小),而结构设计则关注于神经网络架构的具体设定。此外,在这一过程中还涉及到了多个关键步骤:包括循环网络的设计与自动生成性能最优的神经网络架构等

在该领域的主要研究者主要包含三个关键部分:搜索空间构建机制的设计者们;基于不同算法实现自动寻优的技术开发人员;以及用于评估寻优效果的关键指标制定者们等

近年来随着自动化机器学习技术的成功应用案例不断涌现出来

2. Data Preparation 数据准备

在ML管道中最早完成的步骤是数据准备阶段。如图2所示的数据准备流程,可以从以下三个方面展开论述:首先,需要进行数据收集工作;其次,应当对包含噪声或异常值的数据样本进行去除;最后,采用特定方法完成数据增强操作,以提升模型对噪声干扰和欠拟合问题的抵抗力以及预测精度。其中,数据分析清理过程能够有效去除包含噪声或异常值的数据样本,从而确保后续模型训练过程不受影响;而通过科学设计的数据增强方法则有助于提升模型对噪声干扰和欠拟合问题的抵抗力以及预测精度

在某种情况下, 数据增强(DA)不仅可以被视为一种数据收集工具, 因此基于现有数据生成新的样本. 另一方面, DA还被用作一种正则化手段, 以防止模型过拟合的问题. 同时, 它也受到了越来越多的关注. 如图所示的内容.

在这里插入图片描述

上述增强技术仍需人工选择增强操作,并为特定任务设计特定的DA策略,这在专业知识与时间投入上具有较大挑战性。近期,[100–110]等研究者已提出了多套方法用于探索不同任务下的增强策略。自动增强[100]是一项开创性研究,通过强化学习实现最优DA策略搜索,然而其效率不足,仅需约499 GPU小时即可完成一次全面搜索。为了提高效率,后续研究者提出了多种改进算法:梯度下降优化方向法[101, 1 2 ]、贝叶斯优化方法[ 3 ]、在线超参数学习方案[ 9 ]、贪婪式搜索算法[ 4 ]以及随机采样方法[ 7 ]等均取得了不错的效果。值得注意的是,LingChen团队提出了一种无需搜索的方法,假设在增强空间内分布特性保持恒定

3. Feature Engineering 特征工程

人们普遍认可的数据与特征构成了机器学习性能的上限边界[111]。在此框架下, 模型与算法则只能作为这一上限的近似实现者。在这种背景下, 特徵工程的主要目标在于通过深入挖掘原始数据来最大化提取出有用的特徵信息, 以便于算法与模型进行有效运作。其主要包含三个核心环节: 特徵选择、特徵提取以及特徵构造。其中, 特徵提取与构造可被视为一种变形, 即通过特定映射函数将原有维度的数据转换至新的维度空间[111]。在大多数情况下, 特徵提取的目标是降低维度的同时保留重要信息特性; 而特徵构造则是扩展原有的空间维度; 最终目标则是通过选择重要且非冗余的特徵来精简数据量并提升模型性能表现

3.1 Feature selection 特征选择

基于原始数据集的选择过程旨在识别并去除冗余或非相关的属性;随后通过从原始属性集中筛选出一组具有代表性的子属性集

在这里插入图片描述

特征选择的搜索策略包括三种算法:完全搜索、启发式搜索和随机搜索。完全搜索包括穷举和非穷举搜索;后者可进一步分为四种方法:广度优先搜索、分支定界搜索、波束搜索和最佳优先搜索。启发式搜索包括顺序向前选择(SFS)、顺序向后选择(SBS)和双向搜索(BS)。在SFS和SBS中,特征分别从空集合中添加或从全集合中删除,而BS使用SFS和BSS进行搜索,直到这两种算法获得相同的子集。最常用的随机搜索方法是模拟退火(SA)和遗传算法(GA)。
子集评估方法可分为三类。第一种是过滤方法,它根据每个特征的散度或相关性对其进行评分,然后根据阈值选择特征。每个特征的常用评分标准是方差、相关系数、片方检验和互信息。第二种是包装方法,它用所选的特征子集对样本集进行分类,然后将分类精度作为衡量特征子集质量的标准。第三种方法是嵌入式方法,其中变量选择是学习过程的一部分。正则化、决策树和深度学习都是嵌入式方法。

3.2 Feature Construction 特征构造

一种称为特征提取的过程是从原始数据或基础特征空间中生成新特征的行为,在这一过程中通常会增强模型的鲁棒性与普适性。其本质目的则是为了增强原始数据的代表性能力。这种做法在很大程度上严重依赖于人类的专业知识储备,并且最常用的方法之一是预处理转换技术如标准化、归一化或离散化转换等手段。对于不同类型的数据特性而言,则可能需要采取不同的处理方式:例如,在布尔类型的数据中常会采用逻辑运算如合取、析取及否定;而在数值型数据中则多采用极值分析(如最小值与最大值)、算术运算(如加减法)以及平均值计算等方法;对于名义型数据则常见于采用笛卡尔积[113]及M-of-N [114]等特殊处理方式。

3.3 Feature Extraction 特征提取

数据降维技术借助一系列数学变换手段完成对原始数据空间的重新建模过程

主成分分析PCA对于大家来说应该是耳熟能详的技巧了,在实际应用中这一方法应用广泛。然而其背后的数学原理较为晦涩难懂,深入理解这一方法仍需要付出额外的努力。

本篇暂时到这里,在下一篇中记录这篇文章的重点。

全部评论 (0)

还没有任何评论哟~