机器学习---迁移学习方法
1. 问题形式化
将迁移学习中的问题进行形式化描述,则成为所有研究工作的基础。在迁移学习过程中涉及两个核心概念:领域
(Domain) 和任务 (Task)。它们是最基础的概念。
1.1 领域
Domain (域):是参与学习的核心主体。该域主要由两个基本要素构成:即数据以及生成这些数据所依据的潜在概率分布机制。
通常我们用 D 来代表一个 domain,并以大写的 P 代表一个概率分布。特别地,在涉及迁移的情况下,则是由于涉及迁移问题的原因
归因于两个基础领域的分析结果表明,在涉及(Source Domain)被视为基础领域之一的情况下,在探讨(Target Domain)被视为目标领域的核心时,这些概念表现出卓越的效果。
源领域是具备专业知识背景且拥有大量标注数据的领域,并是我们需要进行知识迁移的对象;目标领域则是我们期望达到的具体目标。
要给予知识和标注的对象。在源领域的知识被转移到目标领域时,则完成了迁移过程。
在该领域中的数据,我们常用斜体x来表示样本点;这也是向量的一种表示方式。举例而言,xi即代表第i个样本点。
领域内的基本元素或关键属性可用大写字母X来表示,并被视为一种矩阵形式的一种结构;通常采用花体 X 标记该领域中的数据
数据集的特征空间。\n通常我们用小写字母s和t来分别代表两个不同的领域。\n其中Ds代表第一个域中的示例数据。\n
在源领域中使用符号P表示某种概念,在目标领域中使用符号Dt代表另一种概念。值得注意的是,在理论层面的概率分布P通常只是一个抽象的概念。
认识到各个领域各自具有不同的概率分布模式,在大多数情况下,并不提供其具体的数学表达式。
1.2 任务
任务 (Task):旨在作为学习的目标。任务主要由两个组成部分构成:标签以及与之相对应的函数。通常我们采用花体 Y来表示。
用来表示标签空间;用 f(·) 表示一种学习函数。源领域与目标领域的类别空间就可以形成对应的类别空间。
各自标记为特定的标记符 Ys 和 Yt。我们采用小写字母形式 ys 和 yt 分别作为来源域和目标域的真实类别。
1.3 常用符号总结
迁移学习(Transfer Learning):给定一个有标记的源域

和一个无 标记的目标域

。这两个领域的数据分布P(xs)和P(x1)不同,即P(xs)≠P(xt)。迁移学
习的目标就是要利用Ds的知识来掌握目标域Dt的知识(标签)。此外,在前面所提到的基础上进一步结合相关理论基础等信息进行深入研究。
的迁移学习研究领域,迁移学习的定义需要进行如下的考虑:
(1)特征空间的异同,即Xs和Xt是否相等。
(2)类别空间的异同:即ys和yt是否相等。
(3)条件概率分布的异同:即Qs(ys|xs)和Qt(yt | xt)是否相等。
基于现有理论框架,在结合上述形式化的基础上
领域自适应(Domain Adaptation):给定一个有标记的源域

和一个 无标记的目标
域

,假定它们的特征空间相同,即Xs=Xt,并且它们的类别空间也相同,即ys=yt
以及在条件概率分布上也相同,在数学上表示为Qs(ys|xs)=Qt(yt|xt)。然而,在边缘分布上存在差异,在统计学中定义为Ps
x_s \neq P_t(x_t)。迁移学习的主要目标在于利用带标签的数据集D_s训练一个分类器f:从输入域x_t映射到输出域y_t来进行预测。
目标域Dt的标签

。

迁移学习的核心在于识别或建立源领域与目标领域的相似性关系,并对其进行有效利用或合理应用。这种相似性在很多情况下都是存在的
多种情况都表明这一点。例如,在人类社会中存在许多共通性;在各种交通工具中使用的方法往往有诸多相似之处;在不同种类的游戏系统中基本规则也往往具有一致性
多种情况都表明这一点。例如,在人类社会中存在许多共通性;在各种交通工具中使用的方法往往有诸多相似之处;在不同种类的游戏系统中基本规则也往往具有一致性
国际象棋与其他棋类之间存在许多共同特征;羽毛球与网球在击球规则上具有显著异同。这种一致性在数学中往往表现为某种不变量;面对万变的情况时应当抓住其中不变的部分加以应对。
唯有不断适应与变革( variation ),方能在商业竞争中立于不败之地。识别出问题中的本质特征或共同属性( invariant ),是进行迁移学习的核心要素。在迁移学习中应用这一发现后,在新旧知识之间建立稳定的关联机制就可以显著提升学习效果与应用能力。
一步工作就是采用哪些方法来衡量和利用这种相似性?其目标分为两个方面:第一, 通过准确的方法来衡量两个领域的关联;第二, 通过深入分析这些关联来提取有价值的信息。
Similarity, not only does it indicate whether two objects are similar, but also quantifies the degree of similarity. Second, it is based on a measure criterion, achieved through this method.
们所要采用的学习手段,增大两个领域之间的相似性,从而完成迁移学习。
1.4 度量


基于两个向量(两点)上定义的数据来自同一分布中。计算两点x和y之间的马氏距离:







Maximum Mean Discrepancy (MMD),也被视为迁移学习中应用最为广泛的衡量指标之一。衡量在Reproducing Kernel Hilbert Space中两个概率分布之间的差异程度
在Hilbert空间中, 两个分布之间的距离被视为一种核方法. 两个随机变量的MMD平方距离等于:

其中φ(`)是一个函数,在再生核希尔伯特空间中实现对原始变量的嵌入操作。简而言之,什么是RKHS?因为形式化的定义涉及较多数学推导过程,在此不做详细展开
杂来说就是说,在数学中,
希尔伯特空间是一个关于函数内积的完备空间,
而再生核希尔伯特空间则具备再生性

的希尔伯特空间。就是比欧几里得空间更高端的。将平方展开
随后,在RKHS空间中的内积被表示为核函数的形式之后,则可直接通过相应的核函数来计算MMD值
2. 迁移学习的基本方法
2.1 基于样本迁移
基于样本数据的迁移学习算法 (Instance based Transfer Learning) 根据特定的加权规则处理数据样本。
本内容得以应用并实施于迁移学习中。通过图片直观地展示了基于样本的迁移方法的核心概念,在源域中存在多样的类别或类型
作为动物而言,并非仅仅包括狗、鸟、猫等物种,在迁移过程中,则以最大限度减少与目标域(仅限于狗这个类别)之间的差异为目标策略
我们可以人为地提高源域中属于狗这个类别的样本权重。

尽管基于实例加权的方法拥有坚实的理论基础支持,并且在推导泛化误差的上界方面相对较为简便;然而这类方法主要局限于处理领域间分布差异的问题
异较小时有效,因此对自然语言处理、计算机视觉等任务效果并不理想。
2.2 基于特征迁移
基于特征的迁移学习方法 (Feature-based Transfer Learning) 旨在通过特征转换的方式实现相互学习
缩小源领域与目标领域的差距;或者将数据特性转换到一致的特征空间中,并进而采用相应的技术手段。
经典的机器学习方法能够实现分类识别任务。
基于特征间的同质性和异质性差异,则可将其划分为同质迁移学习与异质迁移学习。
图片很形象地表示了两种基于特征的迁移学习方法。

主要依据特征的数据驱动的迁移学习方法是迁移学习领域内的研究热点。这类方法一般假设不同领域之间的数据或知识存在某种关联性。
有一些交叉的特征。
2.3 基于模型迁移
基于模型的迁移学习方法 (Parameter/Model based Transfer Learning) 是指从源域和目标域中获取其对应的特征表示,并据此建立相应的映射关系
共有的参数信息通过实现迁移的方式进行共享。该种迁移方式基于的前提条件是:源域的数据与目标域的数据之间存在对应关系。
域中的数据可以共享一些模型的参数。

2.4 基于关系迁移
基于关系的学习 (Relation-Based Learning) 与其他三种方法在本质上有着根本的区别
路径的问题上而言, 该方法主要关注于原始领域与目标领域的样本间关系的处理. 图片直观展示了不同领域间存在类似的关系.
系。就目前而言,在知识工程领域中与知识表示相关的迁移学习相关研究工作仍然较为稀缺,在现有研究中主要采用基于马尔科夫逻辑的知识表示框架
网络 (Markov Logic Net) 来挖掘不同领域之间的关系相似性。

2.5 基于马尔科夫逻辑网的关系迁移

3. 迁移学习算法-TCA
3.1 数据分布自适应
数据分布适应性(Distribution Adaptation)作为机器学习领域中应用最广泛的迁移学习方法之一。其核心理念
因为源域与目标域的数据分布存在差异,在这种情况下采用的方法就是对这些数据进行相应的转换处理
根据数据之间的距离被缩小了,在研究数据特性时
以及联合分布自适应。
图像直观地展示了不同类型的数据分布特征。即数据边缘分布的差异,则意味着整体上的显著差异。
在条件分布上存在差异,在总体上呈现相似性;但在各个具体的类别中则表现出明显的不一致。

3.2 TCA
迁移成分分析 (Transfer Component Analysis)被归类为一种边缘分布自适应技术 (Marginal Distribution)
Adaptation: 其目标是缩小源域与目标域之间的边缘概率分布的差异, 从而实现迁移学习. 从理论上讲,
自适应边缘分布方法基于P(xs)与P(xt)之间的差距来衡量两个领域间的差异。具体而言,则是基于P(xs)与P(xt)的距离计算两个领域间的差异程度。

边缘分布自适应的方法最早由香港科技大学杨强教授团队提出。
基于边缘分布自适应的方法最初由香港科技大学杨强教授团队提出,并以其在迁移学习领域的创新性著称;其名称被定义为迁移成分分析(Transfer)。这种方法通过动态调整数据分布特性以优化学习性能。
Component Analysis)。因为P(xs)≠P(xt),所以直接降低二者之间的距离并非可行之策。TCA假设存在某种特定条件
在一个特征映射Φ,使得映射后数据的分布

。TCA假设如果边缘分布接近,
那么两个领域的条件分布也会接近,即条件分布

。这就是TCA的全
部思想。因此,我们现在的目标是,找到这个合适的Φ。
然而在世界中存在无限多个这样的Φ符号,在这种情况下我们无法通过遍历的方式来确定这些Φ的位置,请问该怎么办?
您认为迁移学习的核心在于尽量缩小源域与目标域之间的差距。是否可以在已知Φ的情况下计算两者的距离?
看看能推出什么?
更进一步的探讨,请问具体计算方式?机器学习中涵盖从欧氏到马氏等多种距离类型的方法,在实际应用中可以根据需求选择合适的度量标准。
衡量余弦相似度的距离是什么呢?TCA主要采用的是一个经典的方法来计算数据之间的差异性程度,并且这种较为先进的衡量方法也能够有效避免单纯依赖于单一维度所带来的局限性
改写说明
数,那么它们之间的MMD距离可以计算为:

MMD是做了一件什么事呢?简单,就是求映射后源域和目标域的均值之差。
此时尚态似乎进展缓慢:我们试图寻求的Φ依然难以确定。这是如何实现的?这要归功于矩阵的作用。
我们发现了相关的MMD距离平方展开情况,并且观察到展开式中包含了一个重要的二次项乘积部分。这引出了一个问题:这些相关知识在SVM中有所涉及吗?
基于核函数的方法,在难以直接计算的情况下可以通过将该映射关系表示为核函数的形式来实现;其实这很简单。由此可知,在TCA中我们成功地引入了核矩阵K(x,y)。
K:

以及一个MMD矩阵L,它的每个元素的计算方式为:

这样的好处是,直接把那个难求的距离,变换成了下面的形式:

其中tr(·)运算即为计算矩阵迹的方法。简单来说就是将该矩阵对角线上的所有元素相加。是不是感觉有点意思呢?
标又进了一步呢?
其实在这个问题到这里已经变得可解了。这表示这个领域的工作已经完成了一部分。不过这仅仅是一个。
涉及数学中的半定规划(SDP,semi-definite programming)这一难题的解决往往十分困难。基于TCA的方法通常难以有效实现。
Sinno Jialin Pan曾是中国人民大学的博士生导师,在完成学业后致力于寻找更为便捷的研究方法。他在研究过程中是如何探索这一路径的?
做的呢?他想出了用降维的方法去构造结果。用一个更低维度的矩阵W:

这里的W矩阵是比K更低维度的矩阵。最后的W就是
问题的解答了!
好了,问题到这里,整理一下,TCA最后的优化目标是:

这里的H是一个中心矩阵,

。
该处下方的条件是什么意思呢?min这一项的作用就是要缩减源域与目标域之间的差距,并加入W
限制迫使它保持相对简单。
这一条件旨在确保每个数据集的独特性不受影响。
TCA 需要维持
其属性由散度矩阵表征。换句话说,在计算该矩阵A 的散度特性时,请采用怎样的方法?对于该矩阵A来说
的 scatter matrix 就是AHA**⊤** 。这个 H 就是上面的中心矩阵。
3.3 TCA 和 PCA 的效果对比
直观上可以看出,在经过 TCA 处理后的这两部分数据的概率分布变得更加接近于彼此。
这说明了 TCA 在拉近数据分布距离上的优势。

