论文笔记4：Language Understanding for Text-based Games using Deep Reinforcement Learning

阅读量：

参考文献：《基于文本游戏的语言理解》论文

同名知乎：uuummmmiiii

由于本文采用了LSTM与DQN的融合技术，在架构上并未带来实质性的创新。快速浏览后对整体思路有了基本认识。

为帮助跟我一样的小白，如果有大神看到错误，还请您指出，谢谢~

创新点：将DQN与LSTM结合去解决文字游戏(test-based game,如MUD)

优化：在CNN结构之前增加了LSTM模型用于文本信息提取（类似于对输入状态进行预处理后再传递至CNN网络）

改进的原因在于：由于常用的Bag-of-Word方法以及Bag-of-Bigrams（如需进一步了解，请参考百度百科）的状态表示法忽略了词语之间的顺序性这一关键特征，在这种表示方法下无法区分由不同组合构成的不同句子或段落之间的细微差别

带来益处：这种新的结合方式使得在处理文字游戏上有很大的性能提升

Abstract

在基于文本的游戏场景中，我们通过将文本描述映射为向量的方式，在这种模型中能够捕捉到游戏状态的语义信息。

在经过一系列评估后, 我们验证了我们的算法性能显著提升, 并且确认了其状态表示的重要性.

Introduction

基于文本的游戏类型（如MUD类）：在这些游戏中，玩家只能获取当前游戏状态以及随后将执行的动作的简短文本描述；然而由于潜在的状态信息无法被直接观测到这给人工智能带来了很大的挑战问题；而在此之前人们则是通过连续查看一帧帧的画面来实现对环境状态的认识

作者提供了Fantasty World的状态描述：也就是说作者位于桥上位置，并且向东方向前进即可到达陆地表面。

玩家在选择动作时有必要更加全面地考虑上述文本的描述内容。而Bag-of-words方法由于忽略了词语之间的联系，并且未能识别由于不同语法结构带来的细微意义差异，在某些情况下表现不足。因此我们采用了另一种方法：将每个词表示为向量形式。

（word embedding，词嵌入，见吴恩达大神神经网络讲义，这里简单介绍一下：

该模型假设已学习到"想要一杯橙汁"这一特定模式。当遇到类似的新句子"想要一杯苹果汁"时（或：当遇到类似的新句子“想要一杯苹果果汁”时），用Word嵌入方法就能轻松地学习到苹果汁与橙汁之间的关系（或：从而推断出在“苹果汁”之后同样会接“橙汁”）。这表明存在一个固定的特征维度数量（或：这表明所有单词都可以被映射到一个固定大小的向量空间中），将大量词汇进行向量化表示（或：将大量词语转换为统一维度的空间中的向量），而两者在大多数特征维度上具有相近的数值表现（或：两者在大多数特定属性上具有相近的表现），然而，在某些如颜色相关的特定特征上可能存在差异（或：然而，在某些如颜色相关的特定属性上可能存在差异）。

本文提出的网络（LSTM-DQN）中有两个模块：

一个是将语义信息转换为向量的LSTM模块(representation generator)。

当给定向量表示形式时（基于给定的向量表示形式），生成分数值（即DQN模块中的action generator）。

我们最后评估：游戏中的任务完成数，积累的分数。

发现LSTM-DQN网络完成96%的任务，bag-of-words模型能完成82%，random模型完成5%

Results

对比了四个模型：LSTM-DQN，Random，Bow-DQN，BI-DQN，在两种游戏环境下。

全部评论 (0)

还没有任何评论哟~

论文笔记4：Language Understanding for Text-based Games using Deep Reinforcement Learning

参考资料：LanguageUnderstandingforTextbasedGamesUsing... 同名知乎：uuummmmiiii 由于本文进行了LSTM与DQN结合，在结构上其实并没有很大的新...

论文笔记《Cross-Language Learning for Program Classification using Bilateral Tree-Based Convolutional Ne

CrossLanguageLearningforProgramClassificationusingBilateralTreeBasedConvolutionalNeuralNetworks <htt...

论文笔记-A survey of active Learning for text classification using deep neural networks

1.主动学习是什么？主动学习（ActiveLearning 主动学习AL的目的是减少由人类专家标注的数据量，是一个在activelearner和oraclehumanannotator之间的迭代循环...

【论文笔记】Bert：Pre-training of Deep Bidirectional Transformers for Language Understanding

原文作者：JacobDevlin，MingWeiChang，KentonLee，KristinaToutanova 原文标题：Bert：PretrainingofDeepBidirectionalTr...

Deep Reinforcement Learning for Natural Language Generation

作者：禅与计算机程序设计艺术 1.简介一、任务描述 NaturallanguagegenerationNLG，即自然语言生成，是指从计算机系统生成自然语言的能力。自动文本生成引擎能够帮助人们更好地沟...

论文翻译：Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

在本文中，我们提出了一种深度递进强化学习DPRL方法来识别基于骨架的视频中的动作，其目的是提取最有信息的帧，并丢弃序列中不明确的帧来识别动作。因为选择代表帧的选择是众多为每个视频,我们模型的框架选择通...

论文翻译：Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

在本文中，我们提出了一种深度递进强化学习DPRL方法来识别基于骨架的视频中的动作，其目的是提取最有信息的帧，并丢弃序列中不明确的帧来识别动作。由于每个视频选择代表性帧的数量众多，我们通过深度强化学习将...

论文笔记--BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文笔记BERT:PretrainingofDeepBidirectionalTransformersforLanguageUnderstanding 1\.文章简介 2\.文章导读 2.1概括 2....

论文笔记：BERT Pre-training of Deep Bidirectional Transformers for Language Understanding

BERT:PretrainingofDeepBidirectionalTransformersforLanguageUnderstanding 文章下载地址：<https://arxiv.org/ab...

《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文笔记

论文标题：《BERT:PretrainingofDeepBidirectionalTransformersforLanguageUnderstanding》会议：2019Associationfor...

是否确定退出登录?

论文笔记4：Language Understanding for Text-based Games using Deep Reinforcement Learning

Introduction

Results

全部评论 (0)

相关文章推荐

论文笔记4：Language Understanding for Text-based Games using Deep Reinforcement Learning

论文笔记《Cross-Language Learning for Program Classification using Bilateral Tree-Based Convolutional Ne

论文笔记-A survey of active Learning for text classification using deep neural networks

【论文笔记】Bert：Pre-training of Deep Bidirectional Transformers for Language Understanding

Deep Reinforcement Learning for Natural Language Generation

论文翻译：Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

论文翻译：Deep Progressive Reinforcement Learning for Skeleton-based Action Recognition

论文笔记--BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文笔记：BERT Pre-training of Deep Bidirectional Transformers for Language Understanding

《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文笔记