Advertisement

Large Language Models for Intent-Driven Session Recommendations

阅读量:

Large Language Models for Intent-Driven Session Recommendations

摘要

Intent-aware Session Recommendation (ISR) 在识别会话中的用户意图并进行精准预测方面发挥着至关重要的作用。然而,在基于传统方法中存在一定的局限性, 因为这些方法假设所有会话均具有相同数量的意图, 这种假设忽视了用户会话的动态特性, 即意图的数量和类型可能显著变化。此外, 这些方法通常在潜在空间进行处理, 从而降低了模型的透明度.

为了解决这些问题, 我们采用了创新性的ISR方案. 首先, 该方案通过生成初始提示(prompt), 驱动大型语言模型(LLMs)根据用户对话中展现出的各种意图来推断下一个可能的商品. 为了进一步优化这一流程, 我们开发了一种新型提示优化策略, 通过动态调整促进更精准的结果. 此外, 提示选择模块结合LLMs强大的通用性能力, 能够快速识别最适合的不同领域提示. 这一新范式使LLMs能够在语义层次上更好地理解用户的多样化需求, 实现更加准确且易于解释的商品推荐.

引言

在这里插入图片描述

基于会话的推荐(Session-based Recommendation, SR)主要依据用户的简短匿名行为序列来预测其下一次交互中的物品类型。不同会话往往反映出多样化的用户意图。例如,在亚马逊电子产品数据集中有两个真实示例如图1所示:图1(a)的第一个对话主要集中在单一目标上;而图1(b)的第二个对话则涉及两个主要目标。然而由于直接询问用户的当前意图可能显得具有侵扰性和干扰性 大多数公共数据集并未明确包含这一信息 因此意图感知推荐(Intent-aware Session Recommendation, ISR)方法应运而生 旨在通过捕捉潜在用户的深层意图来提升推荐系统的准确性 早期的研究通常假设每个对话仅有一个单一目标 比如图1(a)所示 这种简化处理在实际应用中往往难以满足需求 因此如何建模对话中的多重目标成为进一步优化算法的关键挑战 同时现有的多目标建模方法 如IDSR、MCPRN和NirGNN等 尽管取得了一定的成功 但仍面临两大关键挑战

第一,在这种方案下,默认假设每个对话都有一个一致且固定的意图数量,并将其作为超参数进行处理;
第二,在这种设定下,默认只关注嵌入空间中潜在意图的学习过程;这一限制进一步削弱了ISR系统的透明度;而这种局限性却进一步阻碍了现有方法实现高精度和可解释性的推荐系统。

值得庆幸的是,在大型语言模型技术迅速发展的背景下, ISR 领域迎来了前所未有的机遇与挑战。这些先进的模型已经成功应用于各种推荐场景(如[4, 11, 16, 43]),但在图像去模糊(SR)领域仍处于探索阶段。尽管在有限的 SR 研究中取得了一定进展(如[21, 49]),但这些研究主要集中在两种主要方法上:基于上下文学习和参数优化微调技术[3, 64]。然而,在简单的基于上下文的学习方法(例如零样本提示[49])下,LLMs 的潜力仍未完全释放出来。尽管微调LLMs具有一定的潜力价值,但它仍然面临计算资源消耗大以及开源LLMs支持不足的问题。

在此基础上,我们提出了一种简洁且高效的模式(PromptOpt),从提示优化(Prompt Optimization, PO)的角度出发,在LLMs能力的基础上进行充分释放以实现更高效的ISR技术(简称PO4ISR)。该模式包括初始化阶段的目标是生成一个起始提示;通过这一过程帮助LLMs动态解析会话级别的用户意图并预判后续可能出现的物品;随后系统将根据识别出的错误进行推理并进行自我反思性优化;最后通过UCB bandits [1]方法评估优化后提示的效果并帮助筛选出有潜力的候选用于迭代优化。这一系列操作使得PO4ISR能够有效引导LLMs在语义层面进行推断与理解,并从而实现更高精度与可解释性的SR效果。

主要贡献:
(1) 开发了一种简洁且高效的模式——PO4ISR,并通过优化LLMs的提示机制来提升ISR的效果。
(2) PO4ISR模式包含提示初始化、优化与选择模块设计,并使LLMs能够通过语义理解对话中用户的多样化意图来实现更精确且易于解释的SR。

相关工作

1.

模型框架

在这里插入图片描述

PO4ISR范式是一种既简洁又高效的框架,源自自然语言处理领域的研究[38],其旨在有效引导大型语言模型(LLMs)在语义层面理解和解析多变的用户意图,从而提高对话推荐(SR)的准确性和透明性。

模型包括三个组件:

  1. Prompt Initialization(PromptInit)主要负责生成初始提示信息。
  2. Prompt Optimization(PromptOpt)通过自我反思机制对基础提示信息进行评估并持续改进。
  3. Prompt Selection(PromptSel)旨在利用LLMs在不同领域中的强泛化能力以实现精准的对话匹配,并从而显著提高对话匹配的准确性水平。

1. Prompt Initialization(PromptInit)

给定任意一段对话,在此基础之上生成并提供一个初始提示用于任务描述。这个提示的主要目标是帮助LLMs在多变的用户意图中进行语义层面的理解,并进而使得LLMs能够生成更加精准且具有解释性的推荐结果。具体而言,则是指引导LLMs完成这一过程:即根据提供的历史(训练)用户会话数据预测下一个物品。例如,在这种情况下;我们可以通过参考Prompt 1中的说明来更好地完成这项工作。为了实现这一目标;我们采用了规划策略[67]来进行整个对话系统的工作流程划分:即将整个对话系统的工作流程划分为四个子任务:预热阶段、信息收集阶段、预测阶段以及反馈阶段等关键环节依次展开操作以确保系统的高效运行与稳定性保障

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2 提示优化 (PromptOpt)

PromptOpt基于迭代自我反思的过程对初始任务描述提示进行了系统性的评估与持续性改进,并对其进行了动态优化以提升性能。

筛选出表现不佳的样本

探究这些错误案例出现的根本原因有助于提升推荐系统的性能水平

提示可能出错的一个原因在于它假设可以根据每个组合中的单独物品准确推断用户的互动意图。然而这种假设缺少必要的上下文信息即用户偏好、喜好或先前互动的数据。缺乏这些信息仅依赖于单个物品就很难准确推断用户的意图。

另一个原因在于提示并未说明如何识别会话中的物品组合。它假定这些组合已经预先被确定并作为输入提供给系统。但在实际应用中从用户的会话交互中识别出具有意义的物品组合是一项复杂的工作。由于缺乏相关的指导信息提示可能导致结果不够准确。

因此系统需要具备两个方面的能力:第一方面是能够自动识别出具有意义的物品组合;第二方面是能够根据这些被识别出的组合进行精准的意图推断。

在这里插入图片描述
  1. 优化提示
    基于每个错误案例识别出的 𝑁𝑟 个因素(原因),我们进一步要求 ChatGPT 根据这些因素采用 Prompt 4 来优化当前提示。例如,优化后的提示呈现为 Prompt 5 。通过比较初始任务描述 (Prompt 1) 和优化后的 Prompt 5 ,可以明显看出:(1) 考虑用户偏好与喜好;(2) 定义物品组合的结构。
在这里插入图片描述
在这里插入图片描述
  1. 增强提示

基于优化建议的基础上进一步规定ChatGPT采用**Prompt 6**生成语义相同的新增强提示(其中**Prompt 7**作为示例说明)。经过对**Ne**个错误案例的优化处理后得到了改进后的数量为2倍于原始的数量。这些改进后的提示将在后续迭代过程中被用于提升模型性能。

在这里插入图片描述
在这里插入图片描述
  1. 评估提示
    2N_e 个提示中筛选出推荐准确率最高的提示至关重要。一种贪心策略是利用全部历史用户的会话来评估指示性能,但这种做法可能会带来很高的计算成本。为了提高效率,我们采用了上置信界 (UCB) Bandits 方法 [38] 来高效估计指示性能。具体而言,这种方法通过迭代的方式从指示的估计性能中选择一个候选,在随机批次的训练对话 (N_t) 上进行评估,并通过观察到的实际效果更新指示性能参数。

该算法所描述的过程通过 ... 公式具体实现,并且其核心机制基于目标物品在排序中的位置进行 ... 计算。其中 \gamma 被定义为探索参数,并通过采用 UCB 理论来实现对 ... 的优化求解。从而能够迅速估算出约 2N_e 条提示的表现。

在这里插入图片描述
  1. 迭代优化(Iterative Optimization)

38

38

38

在这里插入图片描述
  1. 提示选择(PromptSel)
    在迭代优化的过程中,我们最终获得了最初的No个提示。因此,在这种情况下,默认选择表现最优的Top-1提示作为最终结果即可。然而,在大多数对话中发现,并非所有场景下Top-1提示都能取得最佳效果;相反,在某些特定对话中Top-2甚至更高的提示可能会表现出色。如图3所示,则展示了在电影、游戏以及电子商务(捆绑产品)领域三个实际数据集上Top-1与Top-2提示在验证集上的性能对比情况:其中部分数据点显示出Top-2提示优于Top-1提示的情况(即差距小于零)。基于以上观察结果,请考虑以下两种潜在解决方案:
    (1)对所有候选的前几个提示进行整合融合;
    (2)构建一个分类器来为每个对话选择最合适的指示符。
    然而,在实验测试中发现:方案(1)由于多数情况下无法弥补性能下降的问题而未能达到理想效果;方案(2)则过于依赖分类器预测精度的变化范围而导致更多的不确定性因素被引入系统运行过程中
在这里插入图片描述

值得庆幸的是,在跨领域研究中大型语言模型(LLM)展现出了强大的鲁棒性特征。这一发现促使我们展开了对这些优化提示在不同领域表现的深入研究与评估(见图4)。其中,“Opt-Games”(以紫色标记)代表了游戏领域中的Top-1提示样本。通过分析图表数据可以看出,在游戏领域之外的其他两个领域中,“Opt-Games”依然表现出最佳的表现水平。这一现象的一个可能解释是:游戏领域的平均对话长度最短(如表1所示),并且具有一定的稀疏程度(基于"Density Indicator"评估),这些因素共同减轻了识别最佳提示以捕捉关键信息与独特特征所带来的挑战性问题,从而显著提升了推荐系统(SR)的整体效能。因此,在综合考虑各因素后,我们最终确定将"Opt-Games"作为统一适用的优化提示方案,并在第4.2节中进行了验证与实证分析。

在这里插入图片描述

全部评论 (0)

还没有任何评论哟~