Advertisement

【论文笔记】Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction

阅读量:

《Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction》论文学习

文章目录

    • 《Multi-Interactive Attention Network for Fine-grained Feature Learning in CTR Prediction》论文学习
  • 摘要

  • 一、介绍

  • 二、MAIN模型

    • 嵌入层
    • 多交互层Multi-Interactive Layer
    • 全局交互模块Global Interaction Module (GIM)
    • 预测层Prediction Layer.
  • 实验

  • 总结

摘要

用于CTR预测中细粒度特征学习的多交互注意网络
在点击率(CTR)预测场景中,最近的文献很好地利用了用户的顺序行为来捕获用户的兴趣 。然而,这些顺序方法仍然存在三个局限性 。1、现有的方法大多是利用对用户行为的关注,但因为用户经常会点击与任何历史行为无关的新产品 ,这并不总是适合于预测点击率。2、在真实场景中,有许多用户很久以前就有操作,但最近变得相对不活跃。因此,很难通过用户的早期行为来准确地捕捉用户当前的偏好 。3、用户历史行为在不同特征子空间中的多重表示在很大程度上被忽略。
为了解决这些问题,提出了一个**多交互注意网络(Multi-Interactive Attention Network, MIAN)**来综合提取各种细粒度特征(如用户档案中的性别、年龄和职业)之间的潜在关系。具体来说,MIAN包含一个多交互层(Multi- Interactive Layer,MIL),它集成了三个本地交互模块,通过顺序行为、细粒度用户具体信息和上下文信息捕获用户偏好的多种表示。此外,我们设计了一个全局交互模块(GIM)来学习高阶交互,并平衡多种特征的不同影响。
图1:候选项和其他细粒度信息之间的关联和之间的线,复选标记表示已使用的关系,而问号表示尚未完全探索的说明。


一、介绍

只通过历史行为来预测候选项目的不足:
1、用户的新需求常常与任何历史行为无关(图(a)历史行为中包含/不包含的)
2、许多用户的点击行为发生在很久以前,并且在最近的周期中缺乏活动(图(b)亚马逊最近历史行为时间间隔)
3、不同的点击情境中对历史行为的表示应该是不同的
在这里插入图片描述

细粒度:用户详细信息(例如,年龄、性别和职业)、上下文(例如,天气和位置)
本文提出了一种新的多交互注意网络(Multi-Interactive Attention Network, MIAN)模型,该模型聚合多种信息,通过候选项与其他特征之间的交互获得潜在表示。
具体来说,网络由多交互层(Multi-Interactive Layer, MIL)组成,该多交互层包括三个局部交互模块和一个全局交互模块。第一个模块是Item-Behaviors Interaction module (IBIM),它使用Pre-LN Transformer 自适应地探索不同子空间中顺序行为的用户偏好。第二种是项目-用户交互模块( Item-User Interaction Module, IUIM),它的目标是获取候选项目和用户详细信息之间的信息。类似地,第三个项目-上下文交互模块(Item-Context Interaction Module, ICIM)用于挖掘候选项和上下文感知信息之间的关系。此外,设计了全局交互模块(GIM),研究低阶特征与三个局部交互模块生成的高阶特征之间的影响。
在这里插入图片描述

主要贡献如下:
•提出同时研究多个细粒度特征交互以及用户历史行为的问题,据我们所知,之前的CTR方法并没有明确地联合建模这些问题。
•我们设计了一种新的MIAN模型,该模型包含用于细粒度特征交互学习的多交互层,以及一个基于transformer的模块,用于提取不同特征子空间中的用户行为的多个表示。
•在三个大数据集上的大量实验表明,我们的方法不仅显著优于最先进的CTR方法,而且具有良好的模型可解释性。此外,我们在一个大型商业系统上部署了MIAN,并取得了显著的改进。

二、MAIN模型

MIAN的总体架构由三层组成:一个常用的嵌入层,一个多交互层和一个预测层。

嵌入层

项目item: 𝑒𝑖,
历史行为behavior:𝑒𝑏 = [𝑒 ;…;𝑒 ;…;𝑒 ],
user:𝑒𝑢 = [𝑒𝑢;…;𝑒𝑢;…;𝑒𝑢],
上下文content:𝑒𝑐 = [𝑒𝑐1;…;𝑒𝑐𝑘;…;𝑒𝑐].

多交互层Multi-Interactive Layer

在这里插入图片描述
(a)Item-Behaviors Interaction Module (IBIM)
1、对输入归一化
2、Multi-Head Self-Attention.
在这里插入图片描述
3、Position-wise Feed-Forward Network (FFN).
FFN由两个线性变换和ReLU激活组成
(b)Item-User Interaction Module (IUIM)
1、
在这里插入图片描述

2、生成注意力权重𝛼𝑗,量化用户信息对候选项目信息的影响
在这里插入图片描述
3、计算分数
在这里插入图片描述

(c)Item-Context Interaction Module (ICIM)
1、同上
在这里插入图片描述
2、计算上下文分数
在这里插入图片描述

全局交互模块Global Interaction Module (GIM)

1、
在这里插入图片描述
2、softmax
在这里插入图片描述

预测层Prediction Layer.

𝑅𝑔被送入DNN预测模块:将多个具有非线性激活函数的全连接层堆叠起来,以自动学习输入特征之间的高阶交互


实验

总结

为进一步提高CTR预测性能,本文提出了一种新的面向对象模型(MIAN),用于建模项目、用户行为、用户信息和上下文信息之间的细粒度交互。具体来说,我们首先设计了一个多交互层,以有效地学习与Pre-LN Transformer和多个本地交互模块的交互。然后设计全局交互模块,进一步捕获原始特征与学习的交互表示之间的高阶交互,并以灵活的方式平衡不同模块。

全部评论 (0)

还没有任何评论哟~