Advertisement

动态分区分配的“首次适应算法_基于深度强化学习的自适应车间调度问题研究...

阅读量:

今天给大家带来一篇我们关于使用深度强化学习求解作业车间调度问题的新作:Han, B. A., & Yang, J. J.(2020). Research on Adaptive Job Shop Scheduling Problems Based on DuelingDouble DQN. Ieee Access, 8,186474-186495. doi:10.1109/ACCESS.2020.3029868.点击“

视频来源:2020 IEEE Access Best Multimedia Award

「摘要」 :针对传统调度算法实时性较差而难以应对复杂多变的实际生产调度环境等问题,提出一个基于基于析取图分派的深度强化学习调度框架。该框架综合深度卷积神经网络和强化学习实时性、灵活性的优势,直接依据输入的加工状态进行行为策略选取,更贴近实际订单反应式生产制造系统的调度决策过程。通过把利用析取图进行调度求解的过程转化为多阶段决策问题,用深度卷积神经网络模型拟合状态动作值函数,创新性地把制造系统加工状态特征数据表达为多通道图像并输入模型,采用考虑优先级经验回放的 竞争双层深度Q网络(DDDQNPR)训练模型,把启发式算法或分配规则作为调度决策候选行为,结合强化学习在线评价-执行机制,从而为每次调度决策选取最优组合行为策略。85个静态案例的实验结果表明,在小规模问题上,所提出的方法可以求得最优解,在大规模问题上,该方法可以求得优于任意单一规则的调度结果,同时与遗传算法的调度性能相当,平均调度分数为90.79%;为了证明算法的泛化性和鲁棒性,在训练代理时使用带有随机初始状态的案例作为验证集以选择泛化性能最优的模型,然后测试学习到的策略在具有不同初始状态的调度案例上的性能,结果表明代理可以自适应地获得较优解,同时对工时不确定的动态案例进行了实验研究,结果表明,该方法在动态环境下仍然快速地获得鲁棒解。

「关键词」 :自适应调度,卷积神经网络,深度强化学习,作业车间调度,规则选择,析取图

1、论文贡献

本研究的贡献在于(1)提出了使用考虑了优先级经验回放的dueling double DQN模型(Dueling Double DQN with prioritized replay ,DDDQNPR)来构建调度问题的深度强化学习框架,在该框架中包含了目标网络和估计网络,以解决一般DQN存在的过高估计问题;(2)首次建立了基于析取图模型的强化学习环境,将基于析取图的调度求解过程转化为序列决策过程。在该环境中调度可以从非零的状态开始,即可以先交互式地安排一些工序,然后再对剩余的工序进行优化调度;(3)在每一离散时间步,将调度状态创新性地表示为多通道图像,避免了传统强化学习中手动构造调度特征,卷积神经网络根据输入的状态进行启发式规则选择,从而从当前可调度任务集合中选择最优先的工件;(4)设计了一种新颖的与制造期等效的奖励函数,用来评价每一次分派时对调度目标的影响;(5)提出了一种改进的考虑精英策略的epsilon-decreasing策略,该策略在训练后期将以一定的概率选择当前最优解中的最优规则,实验结果表明,该策略在所有案例上的调度性能平均提升5.92%。(6)进行了大量的实验研究,分析了不同超参数的灵敏度,验证了所提出方法在静态问题上的有效性,以及在反应式调度和工时不确定的动态问题上的泛化性。

2、论文框架

构造了一套基于值函数的深度强化学习算法与析取图相结合的自适应调度架构,如图1所示。
a6c8dbde9378cb29cea3ca8d8dfdb986.png 图1 深度强化学习调度框架

3、调度环境

9468ddf79b06ee5db9ba849549dc9c48.png 图2 析取图 5a0e86adbe5b343cc733058d3d0477f8.png 图3 析取图实例化 d96ce5e79052665347b33f4093ee23eb.png 图4 拓扑排序

所以通过析取图来表达调度问题的解,实际上就是在满足顺序约束和能力约束的基础上,确定各个工序的顺序,本质上为序列决策问题,当然就可以通过强化学习进行训练,在下一节中将会详细介绍如何表达调度问题为强化学习问题并进行求解。

4、调度问题转化

状态特征表达

4c59898901ad485017a98ce8355e2494.png 图5 调度状态转移

系统动作定义

5f97e25359f98a92b0ea2e1f04f0abad.png 表2 可选动作集合

报酬函数设计

机床平均利用率,令,则有
50e56f36babbe6d3bfe510a1d6b9326a.png 图6不同时刻的Cmax

探索和利用策略

其中为目前为止的已知最优策略。

5、深度强化学习调度算法

42b2bc2ec04f5a8ab76d43a622f438de.png

6、超参数灵敏度分析

c3570b4a100a968d4ef77dd2ba367312.png 8885328d8f3264fb1d3710da6b497aee.png 网络结构 a90854c3e11a2837cfe8166509014762.png 学习率 578f8407a5ca540a5059ae6145ad84fc.png 贪婪率 2ff506ed424a149d048cc99cab044a57.png 缓存大小 8083e969ec0eb6dc0f23649463e3c786.png 目标网络更新频率 7a952888c7757a5798b0af5487598ecd.png 批量 606ccc5329ac09f6dce435d82fb81684.png 不同跳帧率下的调度得分和单片段运行时间

7、训练过程

e21eea83e3df600981a7db653f7e1b0a.png 片段奖励 b60705bddcea7e6e6cb327ba89580d0d.png 制造期 e71ad97ae480d9391ee5108ab679b1cc.png 初始Q值 3c37eba8ef61cacc21b2838083954b06.png 训练误差 40b06ce0dace35af88da019863eb6d80.png ft06调度状态转移可视化

8、实验结果

d9ef90512d324a0c6b8da2c1c03dc5ec.png 两种探索和利用策略对比 e240ea367f11de642671ddb83a5187db.png 不同算法调度得分对比

全部评论 (0)

还没有任何评论哟~