Advertisement

机器学习13 -- 无监督学习之自监督 self-supervised

阅读量:

1 为什么要自监督学习 self-supervised learning

自监督学习方法是无监督学习中的一种特殊手段。在无监督学习方法中,标注信息是十分宝贵的,通常需要人工操作,其时间和人力成本都十分高昂。然而,在现实中,获取无标注数据确实相对容易的事情。我们可以在网络上获取大量文本、图片、语音、商品信息等数据。如何利用这些无标注数据,一直以来都是无监督学习方法中的一个重要研究方向。

自监督学习基于data中的一部分,预测剩余的部分,并通过自身生成的监督信号,实现自监督学习的过程。通过自监督学习,可以获取文本或图像的表征表示,这些表示有助于后续任务的开展。这通常被称为预训练微调(pretrain-finetune)。

image.png

2 自监督学习实现方案

自监督学习实现方案主要有

  1. 基于部分数据构建完整的数据集。这本质上属于去噪自编码器的一种方法。在NLP领域,BERT系列中的Mask语言模型;在计算机视觉领域,图像还原中的In-painting技术,都采用了这种方案。
  2. 在计算机视觉领域,常见的任务包括将图片分割为9块,随机打乱顺序后进行拼图重组;此外,通过旋转图片,预测旋转的角度也是一种常见的操作。
  3. 对比学习方法包括Word2Vec、Contrastive Predictive Coding和SimCLR等,这些方法在不同领域有广泛应用。

3 NLP领域的自监督学习

NLP预训练模型种类繁多,多依赖自监督学习进行训练。包括但不限于Elmo、GPT、BERT、XLNet、Electra、T5等模型。这些模型本质上可以被视为一种去噪自编码器,即denoising Auto-Encoder。

image.png

3.1 Auto-Encoder和Auto-regressive LM

它们又分为两种

  1. 自编码器Auto-Encoder。比如BERT所采用的Mask language model。它将sequence中的部分token,进行mask,然后让模型对mask位置进行predict。它的优点是可以充分利用两个方向的语句信息,在分类、QA、NER等任务上表现很好。缺点是sequence中只有mask位置参与了predict,训练效率较低。另外训练时有mask,而下游任务fine-tune时没有mask,导致两阶段不一致。
  2. 自回归语言模型 Auto-regressive LM。严格来说MLM掩码语言模型不能认为是一种语言模型。GPT等自回归方式的模型才是真正的语言模型。它利用上文来预测下文的token。它在生成任务上表现较好。优点是pretrain和fine-tune两阶段一致,且sequence中每个位置均参与了predict,训练效率很高。缺点是只能看到上文,无法看到下文,也就是单方向,大大影响了对语句的语义理解。

Auto-Encoder示例如下,它可以获取两个方向的上下文,有助于语义理解

image.png

Auto-regressive LM示例如下,不论是从前到后,还是从后到前,均只能单向

image.png

3.2 XLNet和PLM

XLNet则融合了两者的优点,它构建了排序语言模型PLM(Permutation LM)。它经历了两个主要阶段。

排序时,将sequence中的token位置进行打乱。实操中未直接对token进行打乱,而是通过attention mask的方式实现了这一操作。自回归语言模型predict。由于token的位置被打乱,从而在训练语言模型时,能够获取到上下文信息,有助于对整个sequence进行理解。

image.png

4 CV领域的自监督学习

CV任务上,也很容易实现自监督学习

4.1 predict missing pieces

对图片中的某些区域进行去空处理,然后让模型进行推断,使输出结果尽可能接近输入图片。

image.png

4.2 Jigsaw Puzzles 拼图游戏

将图片分割成多个区域后打乱顺序,然后让模型将其还原为原始图片。类似于拼图游戏。

image.png

4.3 Rotation 旋转

通过将图片旋转特定角度,模型预测旋转了多少度。此外,通过将图片旋转0度、90度、180度和270度的四种类别,模型预测旋转的类别。

image.png

系列文章,请多支持

****************[机器学习1 -- 梯度下降(Gradient Descent)

icon-default.png?t=N7T8

该算法通过迭代下降的方式寻找目标函数的最小值,其核心思想是沿着负梯度方向逐步调整参数,从而实现优化目标。在实际应用中,梯度下降算法因其简单高效的特点,成为机器学习模型训练的重要基础。

****************[机器学习2 -- 优化器(SGD、SGDM、Adagrad、RMSProp、Adam等)

icon-default.png?t=N7T8

机器学习领域中的优化器研究(包括SGD、SGDM、Adagrad、RMSProp、Adam等)

****************[机器学习3 -- 误差来源(偏差bias和方差variance)

icon-default.png?t=N7T8

机器学习领域中,误差来源分析是理解模型性能的关键,其中偏差b(bias)和方差v(variance)构成了核心要素。

****************[机器学习4 -- 反向传播(back propagation)

icon-default.png?t=N7T8

机器学习相关内容深入探讨,本文将系统性分析反向传播机制及其在深度学习中的核心作用。反向传播算法通过计算损失函数对各层权重的梯度,逐步调整参数,以最小化预测误差。该算法在训练神经网络模型时展现出高效的收敛特性,为现代深度学习奠定了重要基础。通过数学公式 \frac{\partial E}{\partial w} = \frac{\partial E}{\partial a} \cdot \frac{\partial a}{\partial z} \cdot \frac{\partial z}{\partial w} ,我们可以清晰地理解其工作原理。反向传播不仅优化了模型性能,还为解决复杂数据学习任务提供了有力工具。

****************[机器学习5 -- 为什么深度学习需要加深?

icon-default.png?t=N7T8

机器学习5:深入探讨深度学习深化的原因

****************[机器学习6 -- 深度学习训练优化

icon-default.png?t=N7T8

机器学习进阶:深度学习训练优化策略,文章详细解析了多种训练优化方法及其在实际应用中的表现,为提升模型性能提供了实用的参考方案。

****************[机器学习7 -- 可解释学习

icon-default.png?t=N7T8

机器学习7:可解释性学习

该研究方向旨在探索机器学习模型的可解释性,通过构建透明化的模型结构,帮助用户理解其决策机制。

可解释学习通过可视化工具展示模型内部机制,为模型优化提供科学依据。

在实际应用中,可解释学习方法能够显著提升用户对模型的信任度,从而推动其在复杂场景中的可靠部署。

****************[机器学习8 -- 模型攻防(model attack & model defense)

icon-default.png?t=N7T8

机器学习领域的第八章:模型攻防技术(模型攻击与防御机制)

****************[机器学习9 -- 模型压缩和加速

icon-default.png?t=N7T8

机器学习模型优化

****************[机器学习10 -- 半监督学习 Semi-supervised Learning

icon-default.png?t=N7T8

半监督学习是一种结合了监督学习和无监督学习的学习方法。该方法通过利用有限的标注数据和大量未标注数据,能够有效提升学习效率。半监督学习的核心思想是利用标注数据的类别信息和未标注数据的分布特征,建立一个既能利用标注数据的精确类别信息,又能捕捉到未标注数据的潜在类别结构的学习模型。在实际应用中,半监督学习方法通常需要设计特定的损失函数,以同时考虑标注数据和未标注数据的特性。通过这种混合的学习方式,半监督学习在处理复杂数据分布和标注资源有限的问题时,展现出显著的优势。该方法在实验中表现出较高的准确率和稳定性。

****************[机器学习11 -- 无监督学习之Auto-Encoder

icon-default.png?t=N7T8

机器学习系列文章的第11篇深入探讨了无监督学习中的Auto-Encoder技术,这是一种强大的深度学习模型,能够自动生成低维特征表示,广泛应用于图像压缩和降噪领域。

****************[机器学习12 -- 无监督学习之线性模型(clustering、PCA、MF)

icon-default.png?t=N7T8

机器学习12:无监督学习中的线性模型(聚类、主成分分析、矩阵分解)

本文将阐述无监督学习中的线性模型,涵盖聚类、主成分分析和矩阵分解等内容。

通过线性模型,我们可以达成数据聚类的目的,同时提取数据的主要特征。

聚类分析是一种无监督学习方法,能够将数据样本自动分组。

主成分分析则通过线性变换,将高维数据映射到低维空间。

矩阵分解方法则通过分解数据矩阵,提取潜在的特征表示。

这些线性模型方法在数据降维、特征提取和模式识别方面具有重要应用价值。

****************[机器学习13 -- 无监督学习之自监督 self-supervised

icon-default.png?t=N7T8

机器学习系列第13篇 -- 无监督学习中的自监督学习

****************[机器学习14 -- Transfer Learning 迁移学习

icon-default.png?t=N7T8

该文介绍了基于迁移学习的机器学习方法,其核心思想是通过特征提取技术,使优化的模型能够显著提升其在目标任务上的性能。该方法特别适用于在源任务上积累大量数据的场景,能够有效降低在目标任务上获得高质量模型所需数据的依赖。

****************[机器学习15 -- Meta Learning 元学习

icon-default.png?t=N7T8

该文介绍了机器学习领域中的元学习方法,探讨了其在自适应学习系统中的应用及其重要性。元学习不仅能够提升模型的泛化能力,还能通过经验的积累和知识的迁移,实现更高效的迁移学习。此外,元学习方法在多任务学习和自适应学习系统中展现出显著的优势,为机器学习的发展提供了新的思路和方向。

****************[机器学习16 -- Lifelong Learning 终生学习

icon-default.png?t=N7T8

机器学习系列第16篇:持续学习

****************[机器学习17 -- GAN 生成对抗网络

icon-default.png?t=N7T8

机器学习进阶17:生成对抗网络模型

全部评论 (0)

还没有任何评论哟~