Advertisement

A3NCF: An Adaptive Aspect Attention Model for Rating Prediction

阅读量:

【论文会议】

IJCAI2018

【论文作者及机构】

(1) 张志勇教授:南洋理工大学
(2) 袁鼎:VIPshop研究院负责人
(3) 何向南教授(Xiang Nan He):南洋理工大学特聘教授
(4) 左赫老师:山东师范大学客座教授
(5) 宋新明教授:山东大学校级特优人才项目负责人
(6) Kankanhalli Mohan:南洋理工大学客座研究员
注:何向南教授是推荐领域的大牛人物,其代表作有Neural Collaborative Filtering(NCF), 个人主页为:https://www.comp.nus.edu.sg/~xiangnan/

【主要研究方向】

推荐系统,评分预测

【主要研究的问题】

根据用户和物品的历史记录,预测用户对物品的评分

【相关的工作有哪些】

(1) 基于矩阵分解(matrix factorization)的方法:该方法主要对用户对物品的交互矩阵做因子分解学习用户和物品的隐层表示([Koren et al., 2009]),然而缺乏对推荐结果的可解释性以及面临“冷启动”的问题;
(2) 基于评论文本建模的方法:从评论学习用户的偏好以及物品的特征,其主要分为两大类别:基于主题模型和基于深度学习模型的方法。a)基于主题模型的方法是利用主题模型预先学习用户和物品的隐层表示,具有代表性的工作有HFT [McAuley and Leskovec, 2013] 和TopicMF [Bao et al., 2014],也有部分学者将主题模型和矩阵分解模型联合学习,获取用户和物品的表示,如ITLFM [Zhang and Wang, 2016] 和 RBLT [Tan et al., 2016]。b)基于深度学习模型的方法,该方法以端到端的形式,从用户和物品的特征抽取直接到最终的评分预测,DeepConn [Zheng et al., 2017]先利用CNN模型抽取分别抽取用户和物品的评论特征,再输入至因子分解机(Factoring Machine),TransNet [Catherineand Cohen, 2017]模型在DeepConn作进一步的改进,引入用户未来的评论来修正当前用户和物品的表示。

【该方向上目前存在的问题及动机】

现有方法均未能充分考虑每位用户在各项物品的关注维度可能存在多样性。具体而言,在苹果手机这类高端产品中,消费者往往会对高像素和低功耗性能给予高度关注;而在廉价手机这类经济型产品中,则更多地注重通讯性能。鉴于此观察结果的基础上,在研究领域内首次提出了一种基于aspect-level的自适应注意力评分预测模型(Adaptive Aspect Attention-based Neural Collaborative Filtering model, A3NCF),旨在精准刻画每位消费者对各类商品不同维度的关注程度。

【本文提出的方法】

在这里插入图片描述

该体系主要由四个部分构建:输入模态构建、特征融合模态构建、注意力交互机制部分构建以及评分预测模态构建。其中输入模态构建由基于主题模态的用户评论与物品评论表示组成,并结合one-hot编码后的用户的隐层表征与物品的隐层表征作为输入内容。在此基础上(即原有的LDA模态),作者引入了贝努利概率分布以增强体系在处理不同层面主题方面的表现能力,并如图所示展示了具体的系统架构设计

在这里插入图片描述

在该主题模型中,默认情况下评论中的每条句子只关注单一的aspect信息,并且这个aspect可能与用户的偏好或者产品的特性相关联。基于此假设的基础上, 作者引入了贝努利二元分布来判别每条句子是由作者偏好生成还是由产品特性生成, 并采用Gibbs采样方法来进行优化求解.

Feature Fusion模块由评论生成的主题向量与one-hot编码转换后的隐式特征向量共同构成. 如果去掉主题向量, 则该模块就退化为典型的NCF模型. 在具体实现过程中, 作者尝试了concat、addition以及element-wise三种不同的融合策略, 实验结果表明, 相较于其他两种方式, addtion方式能够获得更好的性能表现.

Attentive Interaction模块则是通过将用户与物品的向量进行矩阵分解后, 对分解结果中的每一个特征维度赋予不同的权重系数来实现交互信息的有效捕捉. 这种设计灵感源自经典的AFM模型(即注意力因子分解机). 公式推导如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在注意力机制设计中,作者提出了一种新的方法:通过融合原有的主题编码器与多模态编码器来计算注意力权重矩阵,并通过实验验证了该方法较单一依赖多模态编码器能够实现更优的信息提取效果。同时选择SE作为优化目标函数用于优化模型参数:

在这里插入图片描述

【模型代码】

https://github.com/hustlingchen/A3NCF/

【实验与分析】

数据集中采用Amazon评论数据集和yelp评论数据集:

在这里插入图片描述

Baseline的对比:
(1) BMF: 经典基于评分的矩阵分解模型;
(2) HFT:联合MF和LDA评分预测模型;
(3) RMR:采用混合高斯模型预测评分;
(4) RBLT:MF与LDA线性组合预测模型;
(5) TransNet:采用基于CNN建模方法。
实验的结果:
(1) 总体RMSE的对比:

在这里插入图片描述

(2) 隐层规模K对模型性能的影响:在研究论文中,作者认为隐层数量K反映了不同方面信息的特征.实验结果表明,在不同隐层规模设置下测试得到的结果均优于所有基准方法;

在这里插入图片描述

(3) 该研究者针对注意力网络的作用展开了深入分析,并对三种不同的推荐算法进行了横向比较。具体而言, 该研究者比较了基于非条件协同过滤(NCF)机制的传统协同过滤方法、仅基于协同过滤机制构建的ANCF模型以及本研究提出的一种改进型A3NCF算法. 实验数据显示, 在多组不同数据集和不同因素维度下, A3NCF算法相较于前两种方法表现出显著的优势

在这里插入图片描述

【本文的创新点】

该研究者建议采用基于方面级别的方法用于评论预测。该方法将分为两个主要组成部分:一是主题建模技术;二是注意力网络中的关键层设计。在主题模型中将每条评论分解为多个独立的句子段落,并假设每个句子段落均反映一个特定的方面信息;随后通过贝努利概率分布构建用户与物品在各个方面的隐式特征向量。于神经网络模块中,则借鉴自AFM模型的设计思路,在其中设定参数时需要特别关注隐层K的作用机制;即其中隐层K被赋予识别并区分不同方面特性的能力;而通过注意力机制增强了各方面的相对重要性分析能力。

全部评论 (0)

还没有任何评论哟~