【论文笔记】Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction
《Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction》论文学习
文章目录
-
- 《Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction》论文学习
-
摘要
-
一、介绍
-
二、MAIN模型
-
- 嵌入层
- 多交互层Multi-Interactive Layer
- 全局交互模块Global Interaction Module (GIM)
- 预测层Prediction Layer.
-
实验
-
总结
摘要
用于CTR预测中细粒度特征学习的多交互注意网络
在点击率(CTR)预测场景中,最近的文献很好地利用了用户的顺序行为来捕获用户的兴趣 。然而,这些顺序方法仍然存在三个局限性 。1、现有的方法大多是利用对用户行为的关注,但因为用户经常会点击与任何历史行为无关的新产品 ,这并不总是适合于预测点击率。2、在真实场景中,有许多用户很久以前就有操作,但最近变得相对不活跃。因此,很难通过用户的早期行为来准确地捕捉用户当前的偏好 。3、用户历史行为在不同特征子空间中的多重表示在很大程度上被忽略。
为了解决这些问题,提出了一个**多交互注意网络(Multi-Interactive Attention Network, MIAN)**来综合提取各种细粒度特征(如用户档案中的性别、年龄和职业)之间的潜在关系。具体来说,MIAN包含一个多交互层(Multi- Interactive Layer,MIL),它集成了三个本地交互模块,通过顺序行为、细粒度用户具体信息和上下文信息捕获用户偏好的多种表示。此外,我们设计了一个全局交互模块(GIM)来学习高阶交互,并平衡多种特征的不同影响。

一、介绍
只通过历史行为来预测候选项目的不足:
1、用户的新需求常常与任何历史行为无关(图(a)历史行为中包含/不包含的)
2、许多用户的点击行为发生在很久以前,并且在最近的周期中缺乏活动(图(b)亚马逊最近历史行为时间间隔)
3、不同的点击情境中对历史行为的表示应该是不同的

细粒度:用户详细信息(例如,年龄、性别和职业)、上下文(例如,天气和位置)
本文提出了一种新的多交互注意网络(Multi-Interactive Attention Network, MIAN)模型,该模型聚合多种信息,通过候选项与其他特征之间的交互获得潜在表示。
具体来说,网络由多交互层(Multi-Interactive Layer, MIL)组成,该多交互层包括三个局部交互模块和一个全局交互模块。第一个模块是Item-Behaviors Interaction module (IBIM),它使用Pre-LN Transformer 自适应地探索不同子空间中顺序行为的用户偏好。第二种是项目-用户交互模块( Item-User Interaction Module, IUIM),它的目标是获取候选项目和用户详细信息之间的信息。类似地,第三个项目-上下文交互模块(Item-Context Interaction Module, ICIM)用于挖掘候选项和上下文感知信息之间的关系。此外,设计了全局交互模块(GIM),研究低阶特征与三个局部交互模块生成的高阶特征之间的影响。

主要贡献如下:
•提出同时研究多个细粒度特征交互以及用户历史行为的问题,据我们所知,之前的CTR方法并没有明确地联合建模这些问题。
•我们设计了一种新的MIAN模型,该模型包含用于细粒度特征交互学习的多交互层,以及一个基于transformer的模块,用于提取不同特征子空间中的用户行为的多个表示。
•在三个大数据集上的大量实验表明,我们的方法不仅显著优于最先进的CTR方法,而且具有良好的模型可解释性。此外,我们在一个大型商业系统上部署了MIAN,并取得了显著的改进。
二、MAIN模型
MIAN的总体架构由三层组成:一个常用的嵌入层,一个多交互层和一个预测层。
嵌入层
项目item: 𝑒𝑖,
历史行为behavior:𝑒𝑏 = [𝑒 ;…;𝑒 ;…;𝑒 ],
user:𝑒𝑢 = [𝑒𝑢;…;𝑒𝑢;…;𝑒𝑢],
上下文content:𝑒𝑐 = [𝑒𝑐1;…;𝑒𝑐𝑘;…;𝑒𝑐].
多交互层Multi-Interactive Layer

(a)Item-Behaviors Interaction Module (IBIM)
1、对输入归一化
2、Multi-Head Self-Attention.

3、Position-wise Feed-Forward Network (FFN).
FFN由两个线性变换和ReLU激活组成
(b)Item-User Interaction Module (IUIM)
1、

2、生成注意力权重𝛼𝑗,量化用户信息对候选项目信息的影响

3、计算分数

(c)Item-Context Interaction Module (ICIM)
1、同上

2、计算上下文分数

全局交互模块Global Interaction Module (GIM)
1、

2、softmax

预测层Prediction Layer.
𝑅𝑔被送入DNN预测模块:将多个具有非线性激活函数的全连接层堆叠起来,以自动学习输入特征之间的高阶交互
实验
总结
为进一步提高CTR预测性能,本文提出了一种新的面向对象模型(MIAN),用于建模项目、用户行为、用户信息和上下文信息之间的细粒度交互。具体来说,我们首先设计了一个多交互层,以有效地学习与Pre-LN Transformer和多个本地交互模块的交互。然后设计全局交互模块,进一步捕获原始特征与学习的交互表示之间的高阶交互,并以灵活的方式平衡不同模块。
