Advertisement

ICLR 2023 | 网易伏羲3篇论文入选,含强化学习、自然语言处理等领域

阅读量:

第十一届国际表征学习会议(ICLR)定于2024年5月1日至5日在卢旺达首都基加利举行线下活动。近日公布了论文接收结果:网易伏羲共有三篇论文被选中,并包括oral presentation paper和spotlight presentation paper各一篇。会议涵盖了多个研究领域

ICLR 被视为人工智能与机器学习领域的顶尖学术论坛之一,并常被视为三大顶尖会议之一(与 ICML、NeurIPS 并称)。尽管仅有 10 年的历史, 但 ICRL 已迅速获得研究者的认可, 成为相关领域的关注焦点. 最近研究表明, 由于近年来深度学习日新月异的发展使得 ICRL 成为研究者们关注的焦点, 并得益于 Yoshua Bengio 和 Yann LeCun 等领军人物的引领, 此次会议得到了广泛的关注和重视. 根据 Google Scholar 排名, 在学术圈和专业期刊中占据重要地位.

本次ICLR会议共收到来自全球约5000篇高质量投稿论文,其录用率为31.8%.其中约五分之一的录用稿件将获得即兴演讲机会,而前25%的稿件将获得重点展示机会.

以下为此次入选的三篇论文概要:

1

《Tailoring Language Generation Models under Total Variation Distance》

基于全变差距离的语言生成模型

关键词:语言模型,文本生成

涉及领域:text generation, language model

生成文本是一项自然语言处理领域的典型任务,在网易有着极为广泛的实践应用。这些应用场景主要集中在文字游戏、智能NPC系统、文章辅助创作以及歌词辅助创作等领域。
目前文本生成的标准范式是采用最大似然估计(MLE)作为优化方法。从分布的角度来看,MLE实际上最小化了真实数据与模型分布之间的KL散度(KLD)。然而,在这一过程中存在一定的局限性:首先,这种方法导致模型必须为各类训练样本赋予非零的概率;其次,在试图覆盖数据分布中的低概率区域时,模型系统地高估了损坏的文本序列的概率;我们推测这是自回归解码器在运行过程中产生文退现象的主要原因之一。
为了克服上述缺陷,在研究团队的努力下,“伏羲”开发了一种新型技术方案:基于全变差距离(TVD),一种能够稳健应对异常值的技术。

实验表明KLD对于异常点是更敏感的,TCD是鲁棒的

随后引入TaiLr目标用于平衡TVD的估计。通过降低低模型概率真实数据样本的权重并调节惩罚力度得以实现这一目标。实验数据显示,在不损失多样性的前提下我们方法有效降低了退化序列带来的过高估计并在多种文本生成任务中提升了生成质量

TaiLr目标的计算图

2

An Efficient Approach to Unsupervised Reinforcement Learning Utilizing a Multi-choice Dynamics Model.

EUCLID:基于多项选择动态模型的高效无监督强化学习

关键词:无监督强化学习,预训练模型

涉及领域:Model-based RL, Unsupervised RL

强化学习(RL)一般需要大量交互数据和巧妙设计的任务奖励函数来进行策略训练, 这一过程往往会导致较低的样本利用率以及难以快速适应新场景的能力. 因而, 无监督强化学习应运而生, 其核心思想是通过无监督的方式对海量未标注的数据进行预训练, 建立起一个先验知识库, 从而在面对多个下游任务时能够迅速适应其特性. 这一独特的训练模式有助于推动强化学习技术向实际应用中的广泛部署迈进.

融入模型的无监督强化学习训练范式

但以往的研究往往集中于通过环境探索来完成策略预训练的过程,并不能充分依靠多样化探索来确保下游任务性能的有效提升,在这种情况下可能会导致预训练规模越大性能越差的问题。因此,在网易伏羲与天津大学深度强化学习实验室的基础上提出了一种名为EUCLID的新框架。该框架引入了基于模型的人工智能强化学习范式,并通过持续性的长时序预训练工作,并从中获得了精确动态模型的支持。从而实现了对下游任务快速适应并提升了采样效率。在微调阶段中,EUCLID框架运用预先完成好的动态模型来进行策略规划,这样的设计使得由不匹配问题所引发的任务性能波动得以消除,从而实现了单调性地持续性能提升

EUCLID框架中的多项选择学习机制

该框架开创性地将世界模型应用于无监督强化学习领域,并成功解决了传统无监督强化学习在实际应用中面临的主要挑战——不匹配问题。它能够在低成本的无标签数据预训练过程中仅需1万次交互样本即可迅速适应多个下游任务,并构建了高效的无监督预训练体系。与基于模型自由算法相比提升了20倍的采样效率,并在URL社区的标准基准测试中达到了接近上限的最佳性能表现。在实际应用方面,在游戏竞技机器人强化学习领域该框架能够显著降低游戏竞技机器人强化学习所需的成本并提高效率这是因为真实的游戏场景与实验室模拟环境之间存在较大差异需要耗费大量计算资源而强化学习算法的学习过程又需要成规模地运行多个独立的游戏实例以采集高质量样本从而导致高昂的成本投入而EUCLID框架通过数字孪生建模技术使得这种高成本依赖得以有效缓解一旦完成建模过程就可以大幅减少甚至消除对原始游戏场景的数据依赖从而显著降低资源消耗并提升算法效率

3

《Neural Episodic Control with State Abstraction》

基于状态抽象的神经情景控制

关键词:情景控制、状态抽象

情景控制(episodic control)主要通过将Agent积累的历史高价值经验存储至内存,并在此过程中利用内存中的已有知识来加速模型的收敛速度的同时提高样本利用率。然而,在现有的研究中大多只记录真实的state、action以及state value等基础信息,并未充分挖掘样本之间的潜在联系(如状态转移关系、拓扑相似度等),导致泛化能力及样本利用率均未能得到充分提升;此外,在数据表示方面由于采用了浮点数值编码的方式使得内存中的数据难以有效存储和检索。

基于此,网易伏羲与九州大学Pangu实验室研究团队经过深入研究与创新性地提出了一种改进的情境控制机制——NECSA(State Abstraction in Neural Episodic Control),该方法通过状态抽象技术实现了更为高效的场景处理能力

通过基于原始状态间的多阶段状态转移信息,在有限的空间格子中实现高维过渡片段的抽象

  1. 并提出一种高效的状态分析方法,来对格子空间中的状态进行综合评价;

在最后阶段, 这类评估信息将通过intrinsic reward机制来辅助Agent更好地进行学习过程, 并显著提升其在高价值样本上的学习效果

通过实验证明,在各个实验环境中,NECSA均获得了优异成绩,并且始终保持着世界顶尖水准

此外,在强化学习算法中作为一个独立的功能模块集成NECSA具有简便性和灵活性。该方法展现出极强的普适性特点。NECSA的主要应用于游戏竞技机器人的训练领域。对于真实游戏中复杂的多维度状态特征NECSA提供了一种基于状态分析的新颖解决方案从而显著提升了学习效率并实现了人机交互的最佳体验效果同时也有助于提高系统的可解释性水平

衷心感谢清华大学黄民烈教授领导的研究团队在论文《Tailoring Language Generation Models under Total Variation Distance》中所开展的研究工作;同时也要特别提及天津大学深度强化学习实验室在论文《EUCLID: Towards Efficient Unsupervised Reinforcement Learning with Multi-choice Dynamics Model》中取得的重要研究成果;此外九州大学Pangu实验室在论文《Neural Episodic Control with State Abstraction》方面也做出了重要贡献。

网易伏羲是一家专注于游戏及泛娱乐领域人工智能技术研发与应用的顶尖机构。致力于将先进的AI技术和产品分享给更多的合作伙伴,并让更多行业率先享受到人工智能的技术红利。截至目前为止,该机构已成功服务超过200家客户,在其日常运营中的人工智能调用次数已经超过数亿次。如需更多信息,请访问网易伏羲官方网站并点击“阅读原文”跳转至详情页面。

全部评论 (0)

还没有任何评论哟~