Advertisement

论文笔记 | MathDQN: Solving Arithmetric Word Problems via Deep Reinforcement Learning

阅读量:

简介

Lei Wang 和 Dongxiang Zhang 研究团队已在 AAOI 18 年度的会议上发表了他们的研究成果,并采用深度强化学习算法(DQN)针对数学文字题(MWP)的问题进行求解。

Motivation

当我们把一个问题表示为一个表达式树时

在实际应用中,经实践验证可知Deep Q-网络擅长处理搜索空间较大的问题。例如,在游戏场景中

所以本文想要用deep Q-network来解决math word problem。

MathDQN框架

在这里插入图片描述
步骤为:
  • 首先从输入文本中识别出关键的操作数。
  • 系统将这些操作数按照构建表达式树时所遵循的顺序进行排序。
  • 每次迭代时, 系统会选择两个相邻的操作数。
  • 将这两个状态向量传递给由两层全连接层组成的前馈神经网络模型。
  • 对于真实标签的操作符, 如果预测结果与之匹配则视为正确反馈, 否则视为错误反馈。
对应强化学习的要素:
  • state:由两个操作数的上下文向量表示
  • action:指的是这两个操作数的最近公共祖先的操作符
  • reward:若操作符正确,则给予奖励;否则施加惩罚。

优缺点分析

strong points:
  • 首次采用强化学习方法专门针对数学 word 问题(MWP)进行研究,并系统性地设计了合理的状态空间、动作空间以及对应的奖励函数。
    • 这种方法具有显著的优势在于其动机出色且具有实际应用价值。
    • 利用深度 Q 学习(DQN)算法巧妙地解决了具有较大搜索空间的问题。
weak points:

但在当前的研究中并未将其应用于本研究

全部评论 (0)

还没有任何评论哟~