【论文】A Collaborative Transfer Learning Framework for Cross-domain Recommendation
Intro
业界常见的跨域建模方案主要包含两种范式[22][32][5][36][17][14][20]:第一种是通过将源样本与目标样本进行联合混合,并运用多任务学习技术以提升各领域性能;第二种则是利用富含数据的源域训练模型,并在目标域数据不足时进行微调以适应新的数据分布情况。对于第一种方法而言,在不同网络架构的设计下学习特定领域特征以及通用特征通常会采用基于领域指标的技术以识别领域特性;而在微调策略中,则认为目标领域的数据量不足以充分优化模型参数进而达到最佳效果。这两种方法已在某些情况下表现出良好的效果,在另一些情境下仍存在局限性,在后续内容中将对此进行详细探讨
对于多任务学习方案而言,在处理各类源领域数据时它们会与目标领域数据进行交织并存假设模型架构具备识别异同点的能力然而这种假设在现实情况中往往显得过于理想化因为随着相关领域的发展用户行为模式以及项目组构成也可能随之发生变化并且各个领域所提供的数据规模可能存在显著差异这样一来在实际应用过程中训练过程往往会被数据资源丰富的领域所主导而导致资源匮乏领域的训练效果受到影响(即所谓的跷跷板效应[33][3][29])。由此可知这类方法在面对稀疏目标域时往往会表现出明显的局限性为此我们需要探索更加科学合理的解决方案以克服这些问题确保多任务学习系统的有效性和可靠性
对于预训练与微调方案而言,在微调过程中有可能利用训练参数并通过目标样本来引导优化。然而,在源领域经过充分训练达到最优解的情况下,在目标领域中可能会成为局部最小值(即非全局最优解的一种情况[12][8])。数据分布的变化在多个领域之间普遍存在,并且在同一项目中如果在同一领域以不同的创意展示时会出现不同的点击率。当模型经过充分优化以适应源分布时,在目标领域中找到新的合适最优解会非常困难。因此有必要评估源能为目标带来多少有益信息
为了应对跨领域建模过程中由源领域样本引发的问题, 我们提出了一种名为CCTL的跨领域协作迁移学习框架. 该框架主要由三个关键组件构成: 对称同伴网络、信息流网络以及表征增强网络. 具体而言, 对称同伴网络分别训练混合模型(整合了目标与源样本)以及纯模型(仅基于目标样本). 通过比较这两者的性能差异, 我们可以评估当前源域样本对目标域学习的具体贡献. 信息流网络则负责传输每个源样本对应的权重信息, 并在此基础上完成域间语义配准. 最后, 表征增强网络作为一个辅助模块, 在每个研究对象中保持其特有的属性特征. 本文的主要贡献体现在以下几个方面:
为了解决源样本在跨领域建模中引发的问题, 本研究提出了一种名为CCTL的跨领域协作迁移学习框架. 该框架主要包括三个关键组件: 对称伴侣网络用于训练混合模型(包含目标样本与源样本)以及纯模型(仅包含目标样本); 信息流网络负责传输每个源样本计算出的样本权重, 并执行域间语义配准; 最后, 表征增强网络作为辅助任务, 在每个研究域内保持特定领域的特征. 研究的主要贡献体现在: 首次提出了一种结合多任务学习与语义配准的新框架; 通过比较两部分效果的差异来评估当前源域样本对目标域的帮助程度; 在实验层面展示了该方法在复杂场景下的优越性.
我们构建了一个简洁高效的跨域建模框架——CCTL。该框架能够基于源域数据筛选出对目标域训练有显著帮助的样本,并将这些优质样本成功融入到目标域训练过程中。为了衡量信息从源域向目标域传输的有效性, 我们开发了一个创新的信息流网络架构, 用于量化每个源域样本对目标领域潜在的价值贡献。为此, 我们提出了一种名为"表征增强网络"(Representation Enhancement Network)的新方法, 通过对比学习机制使源领域与目标领域的id嵌入能够最大限度地容纳多样化的特征信息。在工业生产数据集上的实验表明, 该框架展现出显著的优势——自2022年部署以来, 在美团展示广告系统的应用中取得了4.37%的点击率提升以及5.43%的GMV增长效果。
2.3 Symmetric Companion Network
具体而言
此外
为了精确评估源样本对目标域的影响程度, 一种直接的方法是通过比较分别在混合域样本和单独的目标域样本上训练后的模型性能来衡量. 进而可以通过分析这两个模型之间离线指标的变化程度来量化其影响. 基于这一理论基础提出的 SCN 模型采用了双塔网络架构设计, 如图 2 所示. 在 SCN 结构中, 一个塔(称为混合塔)能够同时接收并处理来自源域和目标域的不同输入信号, 而另一个塔(称为纯塔)则专门用于接收仅来自目标域的信息. 根据控制变量法可知, 混合塔与纯塔之间的性能差异完全源于源域的影响因素.
2.3.1 特征嵌入。
我们采用不同领域的特征进行单次热编码,并将其转换为适合深度神经网络的高密度、低维嵌入向量。之后会对嵌入后的项目 ID 和用户的连续行为序列应用注意力机制。没有详细讨论注意力机制的具体细节,默认可由其他建模策略替代。这些替代方案包括基于顺序信息的设计等。最后的目标域样本会被表示成 vt^i形式

其中,n_t是指目标域中分类特征的数量;||代表向量连接运算。同样地,我们采用了与源域相同的嵌入技术
值得注意的是,在实际应用中,在源域与目标域之间的特征提取方案可能存在差异性问题。这种情况下会导致vt与vs_i在形状上存在差异,并因而影响同一网络模型的应用效果。为了实现跨域任务的有效学习与迁移优化问题解决策略研究工作,则计划基于信息流网络框架内引入一种语义对齐机制(Semantic Alignment Module, SAN)。该机制旨在通过对vs嵌入形态进行重新建模处理使其能够适应vt原有的结构特点进而实现两者的形态一致性要求。更多细节将在第2.4节中详细讨论
2.3.2 混合塔

如图所示,在该网络架构中

其中,
xi 代表自源域或目标域选取的一组样本;
f 被用作神经网络运算简记;
L即为损失函数,
本文采用交叉熵损失函数作为度量标准;
在混合网络架构中定义为可训练参数,
ps_i则表示另一个分量输出的结果,
该权重系数用于衡量该源样本的重要性程度,
我们将深入探讨这一问题及其解决方案,
通过上述分析可知,
在结合源与目标领域数据的基础上构建混合模型能够有效提升整体性能
2.3.3 纯塔
纯塔只读取目标样本,与混合塔中的目标样本完全相同:

在其中,在Xt中取样的xi属于仅来自目标域的数据;θ pure代表纯塔结构中的参数。Lpure在训练过程中用于指导纯网络进行反向传播;其过程与传统的单领域训练方式一致。这样一来就能获得一个仅基于目标领域数据进行优化的纯塔结构模型。
在 SCN 中有两个主要的结构体(即混合型结构体与纯型结构体),它们在架构与学习速率等方面具有相同的特征。唯一的区别在于混合型结构体会在数据加载阶段额外引入来自源领域的样本数据,并且这些源领域的样本数据会在反向传播过程中对混合型结构体中的网络参数产生一定的影响作用。基于此我们可以采用统一的目标领域样本来计算这两个结构体上的损失函数值,并将两者之间的差异程度作为源领域对模型的影响指标。值得庆幸的是,在训练过程中同一个目标领域样本已经被用于计算了 Losspure 和 Losstgt 两种指标因此信息增益的具体计算方式如下所示:

其中,
Nt 是目标样本的数量,
Θpure 是 SCN 中纯塔的训练参数。
变量 r 表示参数在引入额外源样本更新后损失减少的程度。
当源域样本带来的信息为正时,
SCN 中的混合塔能够更准确地预测。
尤其在对相同的目标域样本进行预测时,
Losstgt 将小于 Losspure,
此时变量 r 大于零;
否则,
噪声信息将导致 r <= 0,
即跨域训练中可能出现负迁移。
2.3.5 参数同步。为减少双塔学习路径带来的偏差,每隔指定步长k值(本研究中取k=1000)执行一次参数复制操作,即将混合型网络的参数复制至纯型网络,从而使得Lossmixed/src/tgt/pure在训练过程中不会因各阶段模型更新造成的偏差而导致过大的噪声积累
2.4 Information Flow Network
主要功能包括通过 SCN 接受奖励与梯度更新,并进行信息传递。因为并非所有信息均为有效, 因此必须采取加权策略
该系统不仅能够评估负迁移现象,在跨域训练过程中也能有效识别这些负迁移。如前所述,在现有方法中出现的负迁移问题通常源于对源领域样本过度利用的情况。其中一些样本在目标领域的作用仅限于部分方面。例如,在用户兴趣方面可能有重叠之处(如对电影和书籍的兴趣),但由于呈现形式的不同而导致两者无法完全对应。
图3中展示了信息流架构(IFN),其核心职能涵盖了以下三点:首先,在源领域中对单个样本所蕴含的目标领域的潜在价值贡献度进行测定;其次,在保证与目标域模型性能优化方向一致的基础上实现相关性测定;最后,在跨领域知识迁移机制下完成源领域信息的有效转移至目标领域
值得注意的是,在本研究中, IFN主要用于预判单个源域样本对目标域的影响程度,而SCNet则通过分析基于双塔结构的目标域预测准确度,来全面评估多个源域样本总体带来的益处。从概念上讲,IFN主要负责预判,SCNet则负责全面评估。在第 2.4.2节中,我们将会深入阐述SCNet在帮助IFN提升训练效果中的具体作用。随后,在第 2.4.1节中,我们将重点探讨如何有效地将信息从源领域转移到目标领域。

2.4.1 语义对齐网络。
本节将深入探讨如何应对由于不同领域间特征不一致而导致的样本表征差异这一关键问题。在跨域迁移学习的核心在于成功地将源域的信息映射至目标域的过程中, 尽管如此, 在源与目标领域间的特征匹配不足会导致样本表征间的显著差异, 这一点不容忽视。值得注意的是, 不同领域所具有的特征数量可能存在巨大差异, 这使得SCN模型难以直接适应并有效处理来自多领域的数据变化, 因此, 采用单一模型来处理多个领域的数据是行不通的
尽管面临诸多障碍,迁移学习已被证实为计算机视觉(CV)与自然语言处理(NLP)领域中一种强大的技术手段。这种技术的成功得益于其能够在不同领域间通过跨领域的语义token实现信息保留的能力得以证实。就计算机视觉而言,在此情境下一个token对应着图像中由像素构成的点、线或面元素;而在自然语言处理领域,则通常对应于一个词语单位。当系统遇到新的应用场景时尽管问题的具体表现形式可能有所变化但这些基础性的token与原始任务之间仍保持着高度的一致性从而实现了知识的有效迁移与应用
//
2.4.2 选择器网络
选择器网络主要作用在于识别源域样本对目标域的知识增量。在本研究的网络架构设计中,我们采用了多层MLP网络结构,在其架构中将最后一层神经元采用sigmoid激活函数:

其中,m 是 DNN 的层数,hm-1 是 DNN 最后一层的输出,Wm 和 bm 是要训练的参数。
在先前的 SAN 结构中, 已获取源域样本 vs i 并被输入到双塔网络中, 从而获得最终的信息增益评估.
通过 IFN 的权重 ps i,可以动态调整每个源样本的损失。因此,SCN 中的网络参数是通过目标域和加权源域的梯度更新的,因此源域的信息可以 "部分适应 "目标域。
//
选择器网络本身没有明确的标签,即没有标签信息来表明源样本是否适合目标样本。回想一下,在 SCN 结构中,已经可以评估一批源域样本对目标域的增益增加 r,但这个增益 r 是一个标量值,无法与每个源域样本一一对应,因此无法使用传统的随机梯度下降来获得更新。但值得庆幸的是,在强化学习领域已经有了解决这类问题的成熟方案,可以通过强化学习算法进行更新。
术语r_k可被视为一种奖励, 其中k代表批次索引. 终结时刻累积的总奖励被定义为r_{\text{total}} = r_k + \gamma \ast r_{k+1} + \dotsb + \gamma^{n-k} \ast r_k, 即r_n即为最终一批次的奖励, 其中\gamma被设定为权重因子, 统一设定其值为0.8.
最后,我们采用 REINFORCE[25] 算法更新 IFN 部分,参数更新如下:

其中 Θif n 被视为 IFN 的参数之一。ps i 则表示第 i 个源样本的输出权重值。raccu 则表示累积奖励值,并且被用作衡量目标域性能的重要指标。为了确保选择器的梯度更新过程更加稳定可靠,在训练过程中每隔 1000 步后会累加一次 raccu 值,并通过梯度回归的方法对 IFN 进行优化调整。这种设计的主要目的是防止批量效应导致更新幅度过大从而影响模型稳定性。
基于 SCN 的对称架构设计,在量化分析中我们能够计算出源域样本的信息增益值。当这一信息增益值呈现正值时,在 SCN 混合塔中引入了更高精度的预测机制,则会导致其损失函数 Losstgt 值降低;同时该奖励信号为正值将促进信息反馈网络 IFN 对此类源样本数据给予更高的权重分配系数。反之若某一来源数据在目标域上的影响产生负面效果,则对应的损失函数比较值 Losstgt 将大于纯损失量 Losspure;此时系统将赋予该数据类别对应的负向奖励信号;最终在梯度更新过程中引导 IFN 调整其选择策略以适应不同类别间的差异性特征
