论文笔记4:Language Understanding for Text-based Games using Deep Reinforcement Learning
参考文献:《基于文本游戏的语言理解》论文
同名知乎:uuummmmiiii
由于本文采用了LSTM与DQN的融合技术,在架构上并未带来实质性的创新。快速浏览后对整体思路有了基本认识。
为帮助跟我一样的小白,如果有大神看到错误,还请您指出,谢谢~
创新点:将DQN与LSTM结合去解决文字游戏(test-based game,如MUD)
优化:在CNN结构之前增加了LSTM模型用于文本信息提取(类似于对输入状态进行预处理后再传递至CNN网络)
改进的原因在于:由于常用的Bag-of-Word方法以及Bag-of-Bigrams(如需进一步了解,请参考百度百科)的状态表示法忽略了词语之间的顺序性这一关键特征,在这种表示方法下无法区分由不同组合构成的不同句子或段落之间的细微差别
带来益处:这种新的结合方式使得在处理文字游戏上有很大的性能提升
Abstract
在基于文本的游戏场景中,我们通过将文本描述映射为向量的方式,在这种模型中能够捕捉到游戏状态的语义信息。
在经过一系列评估后, 我们验证了我们的算法性能显著提升, 并且确认了其状态表示的重要性.
Introduction
基于文本的游戏类型(如MUD类):在这些游戏中,玩家只能获取当前游戏状态以及随后将执行的动作的简短文本描述;然而由于潜在的状态信息无法被直接观测到这给人工智能带来了很大的挑战问题;而在此之前人们则是通过连续查看一帧帧的画面来实现对环境状态的认识
作者提供了Fantasty World的状态描述:也就是说作者位于桥上位置,并且向东方向前进即可到达陆地表面。

玩家在选择动作时有必要更加全面地考虑上述文本的描述内容。而Bag-of-words方法由于忽略了词语之间的联系,并且未能识别由于不同语法结构带来的细微意义差异,在某些情况下表现不足。因此我们采用了另一种方法:将每个词表示为向量形式。
(word embedding,词嵌入,见吴恩达大神神经网络讲义,这里简单介绍一下:
该模型假设已学习到"想要一杯橙汁"这一特定模式。当遇到类似的新句子"想要一杯苹果汁"时(或:当遇到类似的新句子“想要一杯苹果果汁”时),用Word嵌入方法就能轻松地学习到苹果汁与橙汁之间的关系(或:从而推断出在“苹果汁”之后同样会接“橙汁”)。这表明存在一个固定的特征维度数量(或:这表明所有单词都可以被映射到一个固定大小的向量空间中),将大量词汇进行向量化表示(或:将大量词语转换为统一维度的空间中的向量),而两者在大多数特征维度上具有相近的数值表现(或:两者在大多数特定属性上具有相近的表现),然而,在某些如颜色相关的特定特征上可能存在差异(或:然而,在某些如颜色相关的特定属性上可能存在差异)。
本文提出的网络(LSTM-DQN)中有两个模块:
一个是将语义信息转换为向量的LSTM模块(representation generator)。
当给定向量表示形式时(基于给定的向量表示形式),生成分数值(即DQN模块中的action generator)。
我们最后评估:游戏中的任务完成数,积累的分数。
发现LSTM-DQN网络完成96%的任务,bag-of-words模型能完成82%,random模型完成5%

Results
对比了四个模型:LSTM-DQN,Random,Bow-DQN,BI-DQN,在两种游戏环境下。

