论文阅读-Attention-based Transactional Context Embedding for Next-Item Recommendation
Reading Research: Enhanced Attention-Based Transactional Context Embedding for Next-Item Recommendations
基于注意力的事务上下文嵌入下一项推荐
Abstract
在电商交易环境中为用户推荐下一个即将出现的items是一种极具实用价值但同时也充满挑战的技术方案. Transactional context被定义为在交易记录中观察到的所有items. 大多数现有的推荐系统主要关注 recent item交互而忽视了当前context中所有观察到的items. 这些算法通常假设context中的items之间存在严格的顺序关系. 然而这一假设有待商榷因为一个比较长的transaction(长度较长)通常包含了大量与下一选品无关或无用的信息. 这种情况往往会过度抑制真正相关项的影响.
举个栗子~
让我们举一个例子来说明上述问题。
用户首先将三个项目{milk,apple,orange}放入购物车中,
然后将{bread}添加到同一购物车中。
随后,交易被确定为{milk,apple,orange,bread}。
如果我们将前三个项目作为上下文而最后一个项目作为推荐的目标,
现有方法可能会建议{vegetables},如{green salad},
因为最近的上下文项目(orange和apple)。
但是,目标物品面包的选择可能取决于第一个项目(milk)。
在这种情况下,推荐系统应该更多地关注milk而不是orange和apple,
因为milk可能与下一个选择的bread更相关。
此示例显示了下一项建议的重要性,这可能会被交易中的无关项误导。
此外,真实世界的交易数据通常仅指示那些项目与项目之间的订单
(例如,项目时间戳)共同出现在交易中。
因此,推荐具有严格订单的交易项目可能是不可能和现实的。
该推荐算法由作者提出,并在每次交易中综合考虑所有观测到的items,在每个item上赋予不同的相关性权重以构建注意力上下文以提高预测准确性。用于上下文嵌入的模型——注意力事务嵌入模型(ATEM)通过将每个观测到的item按其相关性进行加权来生成上下文表示。通过在交易数据集上的实证研究验证,在准确性和新颖性方面均显著超越现有最先进的方法。
Main Algorithm
问题描述与定义
推荐基于购物车序列( built onshoppingbasket-basedtransactiondata)
给定transactional dataset :
给定每个transaction :
所有交易中发生的所有项目构成整个item集I :
每个transaction是itemset的子集,且t里的并不是严格的交易顺序。
给定目标项为t的项目s(target item),除了项目s本身以外的所有项目都属于该主题t(target group)。主要指属于t的所有项目的集合称为contextc(context set),定义为c等于i_s在t中的差集。
在该场景中(c),注意力机制通过将不同项目的贡献进行加权来影响最终的推荐结果。
给定背景下 ,本文提出的ATEM模型旨在生成一个能够在集合t \setminus i_s中出现的概率分布模型 ,该分布表示在给定类别c下 ,某一个体i_s被选中的可能性 。具体而言 ,通过从每一个实例中选取目标项 ,该模型能够为每个事务t生成相应数量的训练样本 ,其中总共有|t|个这样的样本被创建出来 。
基于此分析可知, TBRS相当于在给定语境下依据条件概率对候选选项进行排序
在预测阶段,在处理基于上下文c的注意力编码时会估计条件概率分布。 这种编码方法整合了所有嵌入于上下文项目中的信息,并通过注意力机制确定各上下文项目的权重
模型建立&模型学习

总体而言, 自下而上地构建, 提出的ATEM模型由输入层, term embedding layer, context embedding layer, 输出层, 以及term与context embedding layer之间的attention layer组成. 如图所示. 该模型通过逐级深入的方式详细阐述了模型如何从输入层层递进地完成工作流程.
Item Embedding
为输入层提供背景项集,在底层的输入单元上构建了一个独热编码向量,在这一向量中仅在位置i_j处设值1,在其他位置设值0。每个独热编码向量长度为|I|个单位,并且总共有|t|个这样的独热编码组成。
由单热矢量所携带的信息具有一定的稀疏性,在该框架中我们设计了一种嵌入机制。该机制通过将这些高维编码映射至目标嵌入层中的低维表示来实现信息的有效提取与表示。其中K维实值向量维持不变
Motivation
推荐系统(RS)在商业领域中发挥着至关重要的角色。然而,在现有的RS理论中面临着诸多挑战, 例如存在倾向向那些与用户之前选择过的类似项目进行推荐。
在现实数据环境中,在人们日常生活中更加倾向于选择新颖且与现有不同项目的平台来获取服务或满足需求。为此目的,在关注点上进行新的推荐显得尤为重要:应聚焦于现有选择中的潜在补充,并通过分析现有序列中的关联性来生成更有针对性的新建议。例如,在购物车(basket)和下一项目的(item)方面提供具体指导可能是有效的策略之一。其特点显著区别于传统的方法
然而,在将一个items集合包含在一个transaction中时,仍然存在疑问:下一个项目应推荐什么?这导致了分析事务内部依存关系以实现对事务上下文下的下一个项目的必要性。
(Transactional context: The transactional context for recommending the next project refers to corresponding project-related transactions, such as shopping baskets composed of multiple selected projects.)
Related
掌握transaction背景中各项间的关联关系及转换难度同样面临巨大挑战,在TBRS框架下,一个主要难题在于构建一个Awareness (意识)模型后能够以高概率准确预测下一个选项。
主要现有的方法是以transaction作为上下文的基础来生成推荐。然而,在现有的TBRS中大部分都基于部分上下文且带有排序假设。
(2012)提出的顺序模式挖掘方法旨在利用基于严格顺序假设的items间的关联性来预测后续项。然而,在某些情况下,在context中的项可能不具备特定顺序特征或属性关系而导致无法找到匹配已提取的模式。
马尔可夫链(MC)(2012年)作为一种建模顺序数据的方法,在时间序列分析中具有重要的应用价值。然而,在捕捉项目间的转换时仅关注直接相连的一对,在捕捉项目间的依赖关系时则存在一定的局限性。具体而言,在这种情况下它只能记录初始状态下的转换情况。
近年来提出了基于**矩阵隐式因子分解(MF)**的方法(2016),该方法被用于处理转移概率矩阵。然而鉴于现实世界中普遍存在幂律分布的数据特征,在这种情况下MF容易受到稀疏性问题的影响(2016)。
基于2015年Deep Learning领域的重大突破,在模拟顺序数据的行为模式方面采用了深度递归神经网络(RNN)。然而由于其复杂性所带来的计算成本较高,使得这种方法难以直接应用于处理大规模数据集。
除此之外,在设计目标上也存在差异性的是矩阵分解(MF)、协同过滤(MC)以及循环神经网络(RNN)。这些模型均不适用于处理无序交易的情况。
举个例子来说(例如),不管面包是否最先被放进购物车里都没有区别)。另外一说,“现有方法无法有效地对上下文中的各项进行加权”,也就是它们更关注那些相关联的项目。这种区分的重要性不容忽视——尤其是对于那些长期进行交易的人来说(例如),这些交易通常会包含大量与后续决策无关的内容)。
近年来,在受到心理认知方案启发的情况下,在相关领域展现出卓越能力的研究人员发现了 notice mechanisms. 在图像中识别与答案相关的区域,并展现了用于解决图像问题的一种堆叠式注意力网络(SAN)。另一个基于人类注意力的学习策略构建了针对句子表征体系的研究者. 借鉴计算机视觉和自然语言处理领域的成功经验,在跨领域研究中提出了ATEM以模拟下一个项目推荐中的上下文注意力机制.
Contribution
本文提出了一种基于注意力的交易嵌入模型(ATEM),旨在解决相关问题。该模型通过识别与下一个选择高度相关的上下文项,在所有观察项目的嵌入上构建了一个关注的上下文(attention context)。该模型采用了浅宽型网络架构(wide-in-wide-out network),参考Goth于2016年的研究结果,并显著降低了时间和空间成本。具体而言,作者将注意力机制整合到浅层网络中,并在不依赖严格排序假设的情况下构建了所有观察项目(observed items)的注意上下文(attention context)。该方法得益于注意力机制的应用,在处理较不相关的内容时表现出了更强的能力,并能够预测具有较少约束条件下的事务中的下一个项目。综上所述:
该种基于注意力机制的学习模型构建了一种关注上下文信息的新方式。不仅强化了与当前任务直接相关的项目信息,同时避免影响后续决策的相关项。我们的方法并未假设事务中各项目需遵循严格的顺序关系。
较宽广的网络达到了ATEM的目标,并且在处理大量项目时更具效率和准确性。
- 实证研究表明
ATEM在准确性和新颖性方面明显优于两个真实数据集上的最新TBRS;
通过比较有无注意机制的方法,注意机制对TBRS产生显着差异。
