基于深度强化学习的智能车间调度方法研究

阅读量：

摘要:

工业物联网的发展前景广阔，在传统工业生产制造模式中扮演着开创性角色。作为提升生产效率的关键技术之一，在实现全面控制和柔性生产方面发挥着关键作用。具体而言，在车间调度问题上提出了两个主要研究方向：其一是在马尔可夫决策过程中构建车间调度模型；其二是将作业调度过程抽象为序列映射问题，并在此基础上开发了基于深度强化学习的调度算法。通过系统分析模型在不同参数条件下的性能表现及其收敛特性，在公共数据集以及真实工厂数据集上均取得了显著的实验效果

关键词：工业物联网 ; 智能车间调度 ; 柔性生产 ; 深度强化学习 ; 车间调度方法

0 引言

工业物联网（IIoT, Industrial Internet of Things）作为新一代信息技术与制造业深度融合的重要组成部分，在推动"人机物"三者之间实现全面互联方面发挥着关键作用。这种技术设想中的智能工厂如图1所示，在采用云-边-端三层架构的基础上实现了智能化生产管理：终端设备从各个生产环节采集到实时生产数据后通过无线传感器网络将信息实时上传至边缘服务器，并在此基础上结合云端预设的车间调度模型以及订单信息等系统数据快速确定待产作业的最佳运行方案，并通过下传至生产线执行相应的操作指令以实现整个工厂生产的自动化运行和智能化管理。图1中虚线表示上层至下层的数据传输方向（例如端到边、边到云），而实线则表示从下层至上的数据传输方向。显而易见的是，在云端不断获取新数据后会定期更新车间调度模型以提升生产计划的效果，这直接关系着企业的生产效率水平。然而就目前而言现有的车间调度方法还无法充分满足IIoT带来的全新挑战因此开发出一套高效可靠的车间调度方法具有重要的理论价值和现实意义

图1 IIoT中设想的智能车间

车间调度问题本质上是从一个待调度作业的输入序列对应到一个调度结果的输出序列的过程。Vinyals等人提出了一种称为指针网络（PN, Pointer Network）的数据模型，在循环神经网络（RNN, Recurrent Neural Network）与注意力机制的基础上解决了序列到序列建模问题，并将其应用于旅行商问题求解。Ling等人则通过全卷积网络（FCN, Fully Convolutional Network）研究了从可行域映射到最优解的学习方法，在中等规模TSP上取得了较好的效果。然而需要注意的是，在上述方法中都需要依赖于标签数据进行有监督训练，在工业物联网场景下大规模数据的手工标注工作量巨大且不切实际。相比之下，在无标签条件下与环境交互的学习方法——强化学习（RL, Reinforcement Learning），能够自主探索并生成稳定的策略方案。Nazari正是利用RL提出了一种端到端解决方案来应对车辆路径问题，并通过策略梯度算法优化模型参数，在中等规模的问题上验证了该方法的有效性。然而需要注意的是，在复杂的车间调度场景中每个作业都具有多维度动态特征这一特性使得传统强化学习难以有效处理这些问题

近年来，在人工智能快速发展的背景下，深度强化学习（DRL, deep reinforcement learning）逐渐成为科研关注的重点之一。该技术融合了深度学习提取高维特征能力和强化学习驱动决策能力，在处理具有高维状态空间和高维动作空间下的复杂决策难题时展现出显著优势，并通过自动生成关键特征来简化问题分析。它能够实现端到端的学习机制，并已在包括游戏自动化、机器人智能控制、自动驾驶技术以及对话系统等多个领域中取得显著成效。然而，在组合优化领域的实际应用仍显不足。受到上述方法论的启发，在本研究中我们聚焦于车间调度优化问题的研究与解决。我们的研究框架主要包含以下三个方面的内容：首先，在云端服务器上利用接收到的工作数据与生产线采集的数据进行训练；其次，在工厂边缘计算节点附近部署经过优化后的模型；最后通过持续的数据更新来动态优化车间调度方案以提升生产效率

定义车间调度问题为马尔可夫决策过程，并构建基于Petri网的车间调度模型。该模型由编码器与解码器两个组件构成，在工业物联网的支持下能够通过海量的无监督数据对模型进行更新与优化。

将作业调度过程建模为从一个序列到另一个序列的映射关系，在此基础上构建了一个基于深度强化学习（DRL）的智能车间调度系统模型。该模型中包含一个负责执行任务（Actor）的网络单元和一个用于评估策略（Critic）的网络模块，在不同复杂度的任务场景中均表现出良好的适应性和泛化能力。

基于公共数据集和生产数据集的仿真实验分析表明，在对比不同算法类型时发现该算法具有显著效果。

1 相关工作

流水车间调度难题（FSP, Flow Shop Scheduling Problem）是一个具有重要理论价值的经典NP-hard问题，在每道工序仅配备一台机器的情况下展开研究。自Johnson于1954年首次发表开创性论文以来，在过去约70年间围绕车间调度问题已取得诸多研究成果。Reza团队对Johnson从早期至2004年间基于最大完工时间准则展开的FSP研究进行了系统性总结。Zhang等人则从工业4.0视角回顾了大量论文，并探讨了新兴技术在传统调度向智能分布式调度转型过程中发挥的关键作用

如果某道工序包含至少一台多工位并行设备，则该生产过程转化为混合流水车间调度问题（HFSP, hybrid flow-shop scheduling problem），这一类型的问题同样属于NP难范畴。HFSP理论最早由Arthanay于1971年提出，在其复杂性和在工业生产中的实际应用价值促使该领域获得广泛关注。Ruiz等学者对2010年前的相关研究进行了系统综述，并对HFSP的主要变种进行了详细探讨。每种变种都基于不同的理论假设、约束条件和目标函数进行了深入分析。Tosun等研究者则聚焦于过去十年间发表的219篇学术文章，在这些研究中他们主要关注的是智能优化方法的应用与改进。Li等研究者对HFSP在实际工程背景下的研究现状进行了全面分析，并指出了当前存在的主要问题及潜在解决方案的方向和未来可能的研究重点

在过去的几十年里，在车间调度问题这一领域研究者们主要关注两种基本求解方法：精确求解方法与近似优化技术

而近似优化技术则主要包括两类：基于启发式的贪心策略与智能优化搜索框架

近年来, 随着计算智能技术的发展, 基于遗传学原理的遗传算法（GA）、模拟蚂蚁行为的蚁群优化（ACO）以及受蜜蜂群体行为启发的人工蜂群（ABC）等智能优化搜索框架逐渐成为解决车间调度问题的有效工具

尽管如此, 智能优化搜索技术在实际应用层面仍面临一些关键挑战：其收敛速度过慢、参数调节困难以及缺乏全局视角指导等问题严重制约了其推广应用效果

Cunha等人对作业车间调度、进化算法以及深度强化学习领域的研究现状进行了系统综述，并提出了基于深度强化学习的创新性体系架构。刘等人通过融合异步更新机制与深度确定性策略梯度方法，在并行训练框架下开发了包含演员-评论家网络模型的新颖解决方案；Han等人基于析取图调度理论构建了适用于多机器并行环境的可直接根据制造状态自适应行为策略的学习框架；Wang等人运用近端策略优化算法成功找到了动态作业车间调度问题的最佳最优解；Luo团队将深度Q-网络技术与6种经典组合调度规则相结合，在动态柔性作业车间调度问题中实现了以最小总时延为目标的精确求解；Zhang团队提出了一种基于图神经网络的新颖嵌入方案，在大规模实际场景中验证了智能体（agent）在不同规模任务上的泛化能力；王凌团队以最小化最大完工时间为优化目标，构建了一个融合深度强化学习与迭代贪婪算法的求解框架；Luo等提出了一个包含勘探回路与开发回路的双环深度Q-网络结构，并成功应用于解决作业随机到达情况下的复杂作业车间调度问题；总体而言，当前基于深度强化学习的研究工作主要集中在每一道工序仅有一台设备或流水车间调度问题上，并未充分考虑状态空间与动作空间更为复杂的多设备并行环境下的高阶柔性流水车间调度难题

2 问题描述和数学表达

2.1 符号解释

（1）索引

i：作业索引，i∈ {1,2,…,N}；

k：工序索引，k∈{1,2,…,K}；

m：工序k 的机器索引，m∈{1,2,…,Mk}。

（2）参数

N：作业总数量；

K：工序总数量；

Mk：工序k的机器总数量；

rti：作业i到达系统的时间；

st ik：作业i在工序k的可开始加工时间；

st ikm：作业i在工序k的机器m上的开始加工时间；

PT_{ikm}表示第k个作业在第k道工序使用第m台机器的加工周期；
CT_{ik}表示第i个作业在第k道工序完成的时间；

ct ikm：作业i在工序k的机器m上的完工时间；

Cmax：最大完工时间。

（3）决策变量

2.2 问题描述

本文着重探讨工业物联网中一类典型车间调度问题的优化方法及其应用前景。具体而言，在炼钢、纺织、机械制造及半导体等行业中普遍存在的车间调度问题被纳入研究范畴。假设存在一个作业集合J={1,2,…,N}以及K道工序，在每道工序k上配置有Mk台机器（Mk≥1）。每个待处理作业i（1≤i≤N）需要依次经过所有工序k进行加工处理。其中FSP（单工作站流水车间）的特点是每道工序仅配备一台机器；HFSP（多工作站流水车间）则要求至少存在一道工序配备多台机器，并且必须有一道及以上工序具备至少两台机器以保证生产连续性。无论哪种情况，所有作业都必须且只能选择任意一台同一工序上的机器进行一次加工操作。已知各作业在不同工序上各台机器所需加工时间为pt ikm，并于rt i时间到达系统（特别地，在第一道工序可开始加工的时间为sti1），因此在FSP场景下本研究只需确定各作业在相应工序上的加工顺序即可计算其各阶段开始时间和完成时间；而对于HFSP情形，则需要同时确定各作业所选择的具体 machines以便进一步计算每一道工序上各 machine 的开始时间和完成时间

在实际生产场景中，在某些车间调度问题并不完全符合标准型FSP（固定单件工时流水 shop problem）或混合型FSP（HFSP）的要求的情况下，在某些特定作业的加工过程中可能出现操作顺序调整的需求。针对这种情况，在研究中我们采取了一种假设性处理方法：对于那些需要进行操作调整的情况，并将其所需时间设定为零值；同时通过引入相应的辅助设备安排策略，并相应地保留原有作业的操作顺序不受影响。

2.3 问题的数学表达

基于现有分析假设, 各作业i在系统中的到达时间rti已被明确确定. 因此, 作业i在其第一道工序的实际开始加工时间sti1上, 必须满足其最早可行启动时刻不低于rti这一前提条件, 其数学表达式可表示为

为了使任意作业i能够在下一工序k进行加工的前提条件是其前一工序k-1必须完成。假设当前系统的缓冲区容量为无限大，并且允许作业在进入机器前排队等待。当将作业i分配至机器m时，在机器处于非空闲状态的情况下（即已有其他作业正在运行），该作业需要等待直至其可用。由此可知，在这一前提下，在上一工序k-1结束之后被分配至同一台机器m的所有操作才会决定当前操作何时能够启动。具体而言，在第k道工序中操作i能够被启动的时间st_ik应当等于第k-1道工序操作i结束的时间以及在同一台设备m上已经被分配的操作所完成的时间的最大值（即max{C_{ik−1}, max_{j∈M_i,j≠i} C_{jk−1}}）。

本文假设作业i在前后工序不涉及转运或其他额外等待的时间，并且必须连续进行。由此可知，在各道工序k上机器m所需的时间pt_ik m是已知且确定无疑的。完成时间为该阶段可用设备投入处理所需的时间与分配给该台可用设备进行处理所需的时间之和，并表示为数学公式：

对于任意作业i而言，在任一特定工序k上仅能安排到一台设备进行加工，并且每台设备在同一工序k上最多只能处理一个作业i的一次性操作。当同一作业i在同一工序k上发生工艺跳变时，则使用虚拟设备完成其所需时间为零的操作，并将其影响视为可忽略而不影响实际生产安排。

最后，任一工序k的机器m在同一时刻最多只能加工一个作业，即

考虑到任意作业i在工序k分派到机器m上的加工情况，其完工时间ct ikm被设定为该作业在该道工序的完工时间。同时，在这道工序上进行加工时的开始时间st ikm被设定为该作业在该道工序的完工时间ct ikm与加工所需的时间pt ikm之差值

本文的主要目的是尽可能提前处理那些最晚到达的作业。从而确保所有作业在规定时间内完成。也就是尽量缩短最终阶段的任务完成时间。从而可以将其建模为一种混合整数规划问题

3 车间调度模型和算法

3.1 马尔可夫决策过程

本文将车间调度问题被建模为马尔可夫决策过程（MDP, Mark decision process）的具体形式进行描述与分析。作为动态系统理论中的核心模型之一，在工业自动化领域中具有广泛的应用基础与实践价值。具体而言，在该模型中系统状态通过状态集S来进行表征与分类；而可选操作则由动作集A进行定义与规范；转移概率矩阵P:S×A↦[0,1)则用于量化各状态下采取不同操作所带来的状态变化可能性；而奖励机制则通过函数R:S×A×S′↦R来表征操作执行后的累积收益或损失情况等关键指标。在实际应用过程中，则假设系统遵循无记忆性原则即所谓的马尔科夫性质，并基于此构建完整的动态优化框架以实现最优决策目标

3.1.1 状态

车间调度模型在时间步 t 时的状态st为元组

该系统采用作业i在其所在的工序k上使用机器m进行加工的时间参数ptikm作为输入的一部分是已知的。它代表了作业i的静态属性，在任何情况下都不会改变。当作业i进入工序k时，其动态属性包括开始时间和完成时间st ikm和ct ikm等参数可通过公式（7）和（8）进行计算。本文将每个作业定义为

，其中fi表示作业i的静态特征，

任务节点i在时间步t上所体现的动态特征。随着在当前工序的所有任务节点完成并成功传递至后继工序的过程中,其对应的状态集合St将转移至新的目标状态集合。

。

3.1.2 动作

在车间调度模型中，
每个操作at属于集合At，
是在时间步t状态下位于状态机St下完成工序k上作业i的加工任务。
因此，
在整个生产流程中，
每一工序k上必须为每个作业i分配相应的待加工机器。
其中，
每台机器m上的操作顺序即为分派的加工顺序。
由于任何作业i在时间步t只能被一台特定的机器处理，
并且仅能在同一工序k上执行一次，
所以FSP和HFSP算法在每个工序的动作空间大小分别为|N|和|NMk|。
为了模拟多台机器并行工作的场景，
我们引入了一个虚拟节点j0（具有零持续时间和mask标记值mask0=1）。
在此模型下，
各工件的操作按编号顺序依次执行：
每次操作可以选择一个正常节点或虚拟节点参与，
并记录操作次数。
当选择的是正常节点时，
会将其对应的mask标记值置为零；
如此反复循环直至所有正常节点标记置零或操作次数达到动作空间上限。
具体示例如图2所示：
当给定两台并行机器m1和m2以及一个待加工作业集合{j0,j1,j2,j3,j4,j5,j6}时，
其输入序列经过调度后得到两个输出序列{j2,j1,j3}（对应于m1的操作结果）
以及{j6,j4,jo,j5}（对应于m2的操作结果）。

图2 输入序列和输出序列的特定示例

3.1.3 奖励

该系统对agent采取行动的效果进行评估。本研究旨在通过逐步优化实现作业调度，在此过程中使目标值Cmax达到最小化状态。较高的系统效率对应较低的目标值，在这种情况下agent所作出的调度决策质量更高从而其获得的奖励也相应提升因此针对车间调度问题设计的奖励函数R定义为

3.1.4 策略

在状态st下，一个随机策略π(at|st)遵循At中所有可能动作的分布规律。而最佳策略π*(at|st)必然能够生成最优解。因此，在研究过程中，我们的目标是使π(at|st)尽可能趋近于π∗(at|st)

3.2 车间调度模型总体架构

车间调度系统整体结构如图所示,该系统主要由编码器模块和解码器模块组成,并基于神经网络中的指针机制进行设计。

图3 车间调度模型总体架构

（1）编码器

在PN体系中设计了一个编码模块（encoder），该模块主要依赖于RNN架构完成特征提取任务。然而，在本文所研究的任务场景中（即车间调度问题），作业执行顺序对模型性能并无显著影响；这是因为所有可能的任务排列组合都能保持原有数据特征的一致性。因此，在调度系统的设计过程中去除了传统的RNN编码器模块，并直接采用了多维卷积神经网络作为嵌入层来处理静态属性信息

映射到矩阵

，从而降低计算复杂度的同时不降低效率。

（2）解码器

解码器由长短时记忆机制（LSTM, long short-term memory）、注意力机制以及掩膜矩阵构成。对于每个时间点t，在该时刻点上,LSTM接收上一时刻的状态向量ht−1以及当前输入向量jt（其中,jt对应于前一时间点t−1的输出yt−1,LSTM计算新的隐藏状态向量ht）。编码器通过多层神经网络处理输入序列后生成的一系列特征向量集合

基于输入序列的所有操作节点动力学特性 dt 以及 LSTM 隐藏层状态 ht 的双重信息来源，在分析各个操作节点的动力学行为时引入了注意力机制。随后通过构建相应的遮蔽矩阵来推导出各操作节点的动力学行为概率分布。随后，在当前时间段 t 中选出具有最大预测概率的操作节点并将其确定为该时间段 t 输出的操作目标。随后，在执行完当前操作之后，在新的时间段 t+1 中会重新计算 dt 为 dt+1 并在此后的时间段 t+1 中作为初始条件重新参与计算相应的遮蔽关系分析工作。

在每个时间步 $t$ 处, 注意力机制根据输入序列的概率分布来指向各个作业节点. 它通过施加一个与输入序列长度相同的掩膜矩阵来影响agent的行为. 掩膜矩阵中的每一个元素都与输入序列中的相应作业节点相对应, 并且其取值范围限定在 $0$ 或 $1$ . 特别地, 对应于虚拟作业节点的位置, 其mask值被恒置为 $1$ , 这使得agent无论何时都能够选择虚拟操作. 当agent在时间步 $t$ 选择了真实操作 $i$ 后, 相应位置上的mask值将被设置为不可选状态. 接着, 基于此mask约束条件, 使用公式(11)重新计算各操作node的概率分布结果, 其中va和wa均为可训练参数. 最终, 系统会选择具有最高概率的操作node作为当前的操作目标.

3.3 基于DRL的车间调度算法

本文应用遵循深度强化学习（DRL）原理设计的车间调度算法对模型实现训练。这两个网络包括演员网络和评论家网络。其中，演员网络负责预测输入序列中每个作业节点在时间步t处的概率分布；该Network通过设定参数向量θ来描述其状态信息。而评论家Network则负责计算对应输入序列的整体预期奖励值；同样地，该评论家Network通过设定参数向量ϕ来进行状态评估。

基于深度强化学习（DRL）设计的一种车间调度系统如算法 1 所展示。该系统首先通过标准化处理各作业的静态特征数据以加快模型收敛速度，并随机初始化Actor-Critic框架中的神经网络参数值。在每一个完整的训练周期内（即一个epoch），系统会清零梯度并重新计算所有作业的第一道工序启动时间和完成时间参数值；随后从训练样本库中随机选取J组独立测试样本（其中每组样本包含N个待加工的任务）。在此过程中，在每一级操作流程的第一个时间段点上（即时间为t=0时），针对每一个测试样本j都会初始化一系列的状态变量包括时间步标记符、遮蔽矩阵以及动作计数器等信息参数；随后构建完整的输入序列数据集并结合公式 (2) 和 (3) 分别对各个任务i的所有启动时间和完成时间变量值进行动态更新运算操作。在这个实时反馈机制下；系统Actor子网络通过感知当前工作环境的状态信息并结合公式 (11)，选择并输出关键决策变量y_t；而后通过相应的机制自动更新工作环境的各项核心状态参数值

当所有正常的作业被分配至实例 j 的相应机器上，并且操作数量已达到最大的操作空间时，在该情况下进入下一阶段的处理流程；直到所有阶段的作业都已经完成分配任务后，在演员网络和评论家网络之间实现了实际奖励 Rj 和预期奖励值的精确计算

完成J个实例的调度任务后, 首先根据式(12)和式(13)分别计算演员网络与评论家网络相应的梯度参数, 并对演员网络和评论家网络进行参数更新. 然后依次执行上述操作, 直到达到预定的最大 epoch 数. 最终所得模型架构可直接应用于后续车间调度任务.

其中，

表示第j个实例在时间步t=0时的环境状态，Yj表示关于

的输出序列，Rj表示第j个实例实际获得奖励，

表示每个作业节点的概率分布，

表示第j个实例关于

的期望奖励。

算法1基于DRL的车间调度算法

输入：所有作业的静态特征fi和动态特征

每个作业i在各道工序k上每台机器m的开始加工时间和完成时间分别为 $st_{ikm}$ 和 $ct_{ikm}$

归一化输入的静态特征：

；

随机初始化演员网络的参数θ和和评论家网络的参数ϕ；

for epoch=1,2,"do

重置梯度：dθ←0，dϕ←0；

重置时间：sti1=rti，cti1=sti1+pti；

从训练集中随机抽取J个实例；

for k=1,2,",K do

初始化时间步t←0，掩膜矩阵

mask=[1,1,…,1]，count=0；

利用式（2）和式（3）更新可开始加工

时间st ik和完工时间ct ik；

if (count≤NM k＆＆mask!=[1,0,…,0])

then

for m=1,2,…,Mk do

观察状态

，根据

选择输出节点yt；

更新状态

，maski =0，

时间步t←t+1，count++；

end for

end if

利用式（7）和式（8）计算每个作业i在分派到的机器m上的st ikm和ct ikm；

根据式（10）计算Rj，

；

end for

计算dθ和dϕ并分别更新演员网络和评论家网络；

end for

3.4 时间复杂度分析

Agent涉及动作决策和网络训练过程，在算法推导中可知单次动作的学习计算量TCact被定义为O(KNM k)，其中变量K代表工序的数量而Mk则定义了每道工序可使用的机器数量，在流水作业调度问题（FSP）中，默认设置为Mk=1。对于一批尺寸为b的产品批次而言，在完成学习任务的过程中所需的学习计算量将相应增加

在本研究中，在神经网络模型中，状态集合S与动作集合A分别等于其输入层和输出层的神经元数量；而隐藏层的节点数量则被设定为nhid。

环境中的计算包含状态更新和奖励反馈。根据算法1的描述，环境计算的其时间复杂度TCenv与另一部分相同。在J个训练集和e个epoch的条件下完成的整个训练过程的时间复杂度TCtrain为：

由于测试过程仅需在每次选择动作时调用网络的结果，则其时间复杂度主要取决于每次选择动作时对网络结果的依赖程度。

TCtest为：

该算法在训练与测试阶段所需的时间会随着作业数量N以及每道工序可加工机器数量Mk的增长，并结合工序数量K的变化呈现多项式级数的增长趋势。尽管参数b、nhid以及变量J和e等因素也会对算法的性能产生直接影响,但这些因素并不会削弱其在大规模场景中的扩展能力。特别地，在具备充足计算资源支持的情况下，默认情况下该过程采用离线方式运行于云服务器上。通过定期采集实时产线数据即可实现模型参数的有效更新。

本节将对比探讨不同类型的调度算法及其性能比较。具体而言，在下一节中我们将详细对比分析以下几类典型调度算法：基于先进先出策略（FIFO）、后进先出策略（LIFO）、最长加工时间作业优先策略（LPT）以及最短加工时间作业优先策略（SPT）。此外，在这一节中我们还将深入研究智能优化算法的表现特点。具体而言，在本节我们将对比考察蚁群优化算法（ACO）、遗传算法（GA）、以及人工蜂群与禁忌搜索相结合的混合优化方法（ABC-TS）。这些智能优化算法具有共同的特点即无需预先进行训练学习阶段即可直接进入优化求解阶段。因此我们主要关注并评估它们在车间调度问题中的动态运行效率及实时性表现。

该调度算法通过根据作业到达系统的时间r it及其各工序加工时间p t ikm的大小进行排序，并将作业依次分配至当前累计完成时间最小的机器上。该算法采用快速排序对各工序进行处理，在单个工序上的排序时间为O(N log N)，而选择加工机器所需时间为O(N log NM k)；因此整体时间为O(KN log NM k)。

智能优化算法通过模拟生物界进化机制与群体协作行为寻找问题解的过程中形成了独特的求解模式。其中蚁群算法（ACO）主要依赖于信息素与正向反馈机制能够有效识别出发点至目标点之间的最短路径其计算复杂度为O(IKAN²Mk)其中I代表迭代次数A代表参与搜索活动的蚂蚁数量；遗传算法（GA）则将问题解编码为染色体形式并初始化生成一群原始种群随后按照适者生存原则筛选出更适合环境的个体进行繁殖交叉与变异操作逐步进化直至收敛到适应度最高的一条染色体其计算复杂度约为O(IKGN²logNMk)其中G表示初始种群规模；改进型蚁群算法（ACO-TS）在此基础上引入了禁忌表机制用于过滤已访问过的路径从而实现了更快捷的目的地寻达其计算复杂度维持在相同的量级即约为O(IKAN²logNMk)

4 实验结果与分析

4.1 实验设置

本研究在国际知名的工作流调度基准数据集中展开实验研究。该数据集涵盖了不同作业量与工序复杂度的典型案例，并将每个作业量级划分为多个工序规模区间。每个区间均包含十个具有代表性的实例样本。受篇幅限制，在现有研究的基础上保持一致的情况下，我们选择了每个区间内的最后一个样本作为性能评估对象。为了便于评估结果的一致性，在每个作业量级中我们选择了最后一个样本作为测试对象。

在缺乏可用基准数据集的情况下，在缺乏可用基准数据集的情况下

本研究采用开源Python框架TensorFlow开发车间调度模型，并将其部署至高性能计算集群环境进行训练。该系统通过NVIDIA Tesla P100-PCIE 16GB显存集群实现高负载任务处理能力，在个人计算机端则配置了联想Intel(R) Core(TM) i7-6700 CPU @ 3.40 GHz并配备8GB内存用于验证测试。在模型训练过程中，我们生成5万组不同规模的数据样本作为训练集，并将其应用于持续40个周期（ epoch）的优化过程。实验中激活函数选用了双曲正切函数（tanh）。实验中选择5万组数据样本的原因是为了确保不同规模数据集之间的平衡性与一致性。

4.2 收敛性分析

进行了包含不同参数设置的FSP中模型收敛性的研究。

本研究考察了隐藏层中不同神经元数量（包括8、32、64、128和256）对模型收敛性能的影响。各组实验结果均体现在图4中。其中Reward指标经数据归一化处理得到。当神经元数量处于合理区间时（即未超过某一阈值），其对应的训练效率会逐步提升。基于上述分析结果可知，在本研究中选择隐藏层神经元数目设置为128个能够显著提高训练效率

图4 不同神经元数量下模型的收敛性

其次，在探究不同参数配置对模型表现的影响过程中, 我们重点考察了以下四种典型的学习率组合: $learning\_rate = \{ 1\times1e^{-2},\, 1\times1e^{-3},\, 1\times1e^{-4},\, 1\times1e^{-5} \}$ 。通过图5可以看出, 在不同设置下（尤其是最低的学习速率）, 模型的表现呈现出显著差异性。具体而言, 当采用最小的学习速率时（ $learning\_rate = 1\times1e^{-5}$ ），虽然其数值极低可能导致训练过程所需时间显著增加（超过4个训练周期 epoch）。反之，在较高设置下（如： $learning\_rate = 1\times1e^{-2}$ ）则会导致模型难以收敛。经过权衡与分析后, 我们最终确定将 $learning\_rate$ 设置为 $1\times1e^{-4}$ 。

图5 不同学习率下模型的收敛性

本文探讨了不同批量大小（分别为1、8、32、64和128）对模型收敛性的影响。通过图6可观察到以下现象：当批量减小时（即批尺寸越小），模型的梯度振荡幅度增大（即梯度振荡幅度越大），这不利于模型的有效训练；相反地，在较大规模下（即批尺寸越大），虽然梯度振荡幅度减小（即梯度振荡幅度越小），但达到同等奖励所需的时间周期延长（即达到相同 Reward 的 epoch数量增多）。因此，在本研究中选择32作为批量大小时（即当批尺寸为32时），此时能够实现较快的收敛速度。

图6 不同批尺寸下模型的收敛性

最后部分阐述了作业总数量和机器总数量分别为2e+4（即2乘以十的四次方）、5e+4（即5乘以十的四次方）、1e+6（即十的六次方）以及2e+5（即二乘以十的五次方）时FSP算法在这些特定参数设置下的收敛效果。通过图7可以看出，在不同的问题规模下模型的表现差异显著：随着问题规模增大（即作业总量与机器总量的比例增大），算法的整体迭代效率逐渐降低。

图7 不同规模下模型的收敛性

4.3 与其他算法的性能对比

本文旨在通过系统性对比分析来评估所提出的基于深度强化学习（DRL）的方法的性能表现。研究将该方法与一系列经典的优先权调度算法以及改进型智能优化算法进行了全面比较。其中包含经典的FIFO（先进先出）、LIFO（后进先出）、LPT（最长处理时间）、SPT（最短处理时间）等调度策略；同时也不排除对ACO（蚁群优化）、GA（遗传算法）等智能优化方法进行深入探讨。值得注意的是，在针对复杂流水车间调度问题（FSP）的研究中，本研究还对比分析了现有的改进型DRL方法。为了尽可能地消除潜在的算法随机性干扰并合理控制实验成本，在实验阶段对每个测试案例进行了10次运行并取平均值（结果取整）。

FSP实例结果如表1所示，在针对不同规模的FSP场景中（包括作业总量与机器总量分别为50×10、100×10和200×10等中大型情况），DRL_IG算法与本文提出的基于深度强化学习的智能车间调度方案均表现优异，并且在处理能力上均显著优于基于优先权规则调度方法以及智能优化算法。尤其是在面对不同规模的中大型场景时，基于深度强化学习的方法展现出更为明显的性能优势。相比之下，在算法性能提升方面略显不足的情况下，DRL_IG算法通过48小时的离线训练为后续迭代搜索环节提供了充足的基础，并在每轮迭代过程中进行了8 000次的ig搜索操作；然而，在网络训练与运行的过程中所耗费的时间成本相对较高，在面对更大规模的实时动态环境时难以满足实际需求

本文通过实验数据分析表明，在小规模HFSP场景下（即作业总数量为50），本文所提出的改进型作业调度算法在性能上优于传统的基于优先权的调度策略，并与其运行效率相当。具体而言，在各道工序上机器数量较为有限的情况下（即作业总量及工序安排较为有限的情况下），智能优化算法仍能实现较好的优化效果。然而，在中大规模场景（即作业总数量达到100或200）下以及当可利用加工机器数量显著增加时（即相同作业但不同加工机器数量对比的结果），本文所提出的方法相较于其他对比算法能带来更为显著的提升效果

研究表明，在不同的生产环境下以及面对不同作业、工序和加工机器数量的车间调度问题上（ $S_i$ ），本文提出的方法具有广泛的应用价值。该方法能够自动获取参数并提取特征，在操作过程中无需人工干预优化流程；它克服了传统智能优化算法在面对不同场景时所面临的经验依赖性和计算资源限制性挑战；同时也能有效规避因计算资源限制导致的时间消耗与性能瓶颈问题。

5 结束语

本研究开发了一个基于指针网络架构的智能车间调度系统，并构建相应的算法框架。通过深度强化学习（DRL）原理设计了一种智能车间调度方案，在大量无标签数据的学习过程中实现了动态策略优化。针对不同参数组合的情况进行了收敛性分析，并与现有多种典型算法进行了对比试验。实验结果表明，在不同规模的任务处理中表现优异，并且在求解效率上较其他方法有显著提升。特别适用于中大规模作业安排问题，在实际应用中的适用性和可靠性得到明显增强

全部评论 (0)

还没有任何评论哟~

基于深度强化学习的智能车间调度方法研究

摘要: 工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路。智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一，要求以最大完工时间最小化分派多道工序和多台机器的生产调度。首先，...

基于深度强化学习的智能车间调度方法研究

摘要工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路。智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一，要求以最大完工时间最小化分派多道工序和多台机器的生产调度。首先，将...

基于深度强化学习的智能车间调度方法研究

基于多动作深度强化学习的柔性车间调度研究（Python代码实现）

👨‍🎓个人主页 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭：行百里者，半于九十。

基于深度强化学习的智能网络安全防护研究

摘要：人工智能（ArtificialIntelligence，AI）的快速发展为网络空间安全对抗提供了新的思路和技术手段，然而AI在网络安全领域的应用将加剧网络攻防对抗的速度、烈度、复杂度。通过研究...

基于多智能体深度强化学习的多域协同抗干扰方法研究

目录 0引言 1相关工作 2系统模型与问题建模 2.1系统模型图1 图2 2.2问题建模 3多域协同抗干扰方法 3.1多用户马尔可夫决策过程图3 3.2信道选择和数据调度联合决策算法图4 4仿真...

基于深度学习的智能算法研究与应用

作者：禅与计算机程序设计艺术《基于深度学习的智能算法研究与应用》 1.引言 1.1.背景介绍深度学习是一种强大的人工智能技术，通过多层神经网络的构建，能够实现图像识别、语音识别、自然语言处理等复杂...

基于深度学习的智能算法研究与应用

作者：禅与计算机程序设计艺术 “深度学习”（DeepLearning）近几年成为热门话题，被认为是继机器学习、统计学习之后又一个重要的方向。人们对于深度学习的理解主要围绕着三个方面：数据、模型和优化方...

基于深度强化学习的微网P2P能源交易研究

基于深度强化学习的微网P2P能源交易研究摘要：代码主要做的是基于深度强化学习的微网P2P能源交易研究，具体为采用PPO算法以及DDPG算法对P2P能源交易模型进行仿真验证，代码对应的是三篇文献，内容...

动态分区分配的“首次适应算法_基于深度强化学习的自适应车间调度问题研究...

今天给大家带来一篇我们关于使用深度强化学习求解作业车间调度问题的新作：Han,B.A.,&Yang,J.J.2020.ResearchonAdaptiveJobShopSchedulingProble...

是否确定退出登录?

基于深度强化学习的智能车间调度方法研究

0 引言

1 相关工作

2 问题描述和数学表达

2.1 符号解释

2.2 问题描述

2.3 问题的数学表达

3 车间调度模型和算法

3.1 马尔可夫决策过程

3.2 车间调度模型总体架构

3.3 基于DRL的车间调度算法

3.4 时间复杂度分析

4 实验结果与分析

4.1 实验设置

4.2 收敛性分析

4.3 与其他算法的性能对比

5 结束语

全部评论 (0)

相关文章推荐

基于深度强化学习的智能车间调度方法研究

基于深度强化学习的智能车间调度方法研究

基于深度强化学习的智能车间调度方法研究

基于多动作深度强化学习的柔性车间调度研究（Python代码实现）

基于深度强化学习的智能网络安全防护研究

基于多智能体深度强化学习的多域协同抗干扰方法研究

基于深度学习的智能算法研究与应用

基于深度学习的智能算法研究与应用

基于深度强化学习的微网P2P能源交易研究

动态分区分配的“首次适应算法_基于深度强化学习的自适应车间调度问题研究...