基于深度强化学习的智能车间调度方法研究

阅读量：

本文提出了一种基于深度强化学习（DRL）的智能车间调度方法，旨在解决工业物联网中的复杂车间调度问题。该方法将车间调度问题定义为马尔可夫决策过程（MDP），并采用指针网络构建模型，结合演员网络和评论家网络进行训练。该模型能够处理固定顺序加工（FSP）和混合流程加工（HFSP）两种场景，并通过对比实验验证了其在不同规模下的有效性。
与传统基于优先权的规则调度算法相比，在大规模场景下本文提出的方法性能显著提升；与智能优化算法相比，在小规模场景下表现更优，在中大规模场景下也有明显优势。该方法无需人工调整参数即可应用到不同生产环境，并能动态更新优化策略。
实验结果表明，本文提出的基于DRL的方法在处理不同规模的FSP和HFSP问题时均表现出色，尤其适用于工业物联网中的实时动态环境。

摘要:

工业物联网展现出显著的发展势头为传统制造模式提供了创新机遇。智能车间调度作为提升生产效率的关键技术之一其目标在于最小化最大完工时间并优化多工序多机器的作业安排。为此我们首先将车间调度问题建模为马尔可夫决策过程并设计了一个基于指针网络的调度框架。接着我们将作业调度过程抽象为序列映射关系并提出了一种基于深度强化学习算法的新颖调度方案。通过系统性地考察不同参数条件下的模型行为我们确定了一组最优配置参数。在经过大量公共数据集与实际生产数据集测试后所提出的算法展现出显著的技术优势尤其是在复杂场景下表现出了更强的竞争能力

关键词：工业物联网 ; 智能车间调度 ; 柔性生产 ; 深度强化学习 ; 车间调度方法

0 引言

工业物联网（IIoT, Industrial Internet of Things）作为新一代信息技术与制造业深度融合的产物，在实现人机物三者间的全面互联后，开创性地为传统工业生产制造模式提供了全新的转型路径。如图1所示，在智能车间架构中采用了云-边-端三层架构模型，在此基础之上终端设备整合了各类传感设备以实时感知生产线下的生产数据，并通过无线传感器网络将这些实时数据传输至边缘服务器。在边缘层面上结合云端预训练好的车间调度模型以及订单信息等系统信息对等待生产的作业实现了快速精准排产调度，并将所得调度结果通过生产指令的形式下发至各条生产线执行操作以保证整个生产流程的高度自动化智能化无人化运行。实线则代表自上而下数据传输路径（例如边缘到云端的数据流动）。显而易见的是云端不断更新的数据资源驱动下形成的车间调度模型预测精度直接影响着生产效率这一指标进而决定了整体生产业绩但目前所采用的传统车间调度方法尚无法充分满足IIoT发展的新愿景因此开发出一种高效精准的智能化生产调度方案不仅具有重要的理论价值而且在实际应用层面同样意义非凡

图1 IIoT中设想的智能车间

车间调度问题对应于从待调度作业输入序列向调度结果输出序列建立的一种映射关系。Vinyals等人提出了指针网络模型（PN），该模型基于循环神经网络（RNN）与注意力机制共同作用，在序到序建模任务中展现出良好的性能特性，并被成功应用于旅行商问题求解中。Ling等人则通过全卷积网络（FCN）架构，在可行域到最优解映射的学习任务中取得了一定的实际效果。然而，在工业物联网场景下大规模数据的手工标注工作量巨大且效率低下导致有监督训练方法的应用受限。与之相比强化学习方法作为一种数据驱动型的学习范式无需人工标注便能与环境交互学习稳定策略展现出更强的生命力。Nazari团队正是基于这一思路构建了一个端到端强化学习框架以解决车辆路径规划问题并通过策略梯度算法优化相关模型参数验证了其在中等规模问题上展现出的有效性。但值得注意的是车间调度任务中的每个作业对象往往具有多维度动态特征这正是传统RL方法难以有效处理的关键难点

近年来，在人工智能技术快速发展的背景下

以马尔可夫决策过程的形式对车间调度问题进行了建模，并开发了基于Petri网的车间调度系统模型。该系统模型由编码器与解码器两个核心模块构成，在工业物联网平台的支持下完成实时数据处理与优化运算。通过工业物联网平台收集的大规模无监督数据对系统进行持续优化。

可将作业调度过程视为一种序列到序列的映射关系，在此基础上设计了一种基于深度强化学习（DRL）构建了一个智能车间调度系统。该系统由演员网络（Actor）与评论家网络（Critic）构成，并具备良好的适应性和广泛的适用性。

基于公共基准数据集和生产场景数据的模拟实验中对不同类型的算法进行了比较分析，并通过实验结果证明了该算法的有效性。

1 相关工作

流水车间调度问题（FSP, flow-shop scheduling problem）是一个典型的NP-hard问题。它主要关注的是每道工序仅有一台机器的情况。自Johnson于1954年首次提出开创性研究以来，在这近70年间该领域得到了大量研究进展。Reza团队对Johnson关于从早期至2004年间基于最大完成时间（makespan）准则的FSP研究进行了全面综述。Zhang及其团队则从工业4.0视角回顾了逾120篇相关文献，并深入探讨了新兴技术如何助力传统调度向智能分布式调度转型的问题。

如果某道工序包含至少一台多工位并行处理设备，则该生产组织形式等同于混合流水车间调度问题（HFSP, hybrid flow-shop scheduling problem），该类型问题是典型的NP-hard nature。HFSP理论模型最早由Arthanay在1971年提出，并因其实质意义和工程实践需求受到了广泛关注。Ruiz等人对2010年前相关研究进行了综述性回顾，并对HFSP的主要变种类型进行了系统分析；每种变种都基于不同的理论假设、约束条件和目标函数展开了深入探讨。Tosun等人则对过去十年间发表了的219篇相关研究论文进行了深入分析；Li等人则从工程实际应用角度对现有研究工作进行了重点总结，并指出了当前研究中存在的主要问题及可能的改进方向和未来研究趋势。

在过去的几十年里,解决车间调度问题的方法主要可分为两大类：精确方法与近似方法。其中,精确方法主要基于析取图模型,通过枚举法或结合活动调度生成、混合整数规划模型等方式求解小规模问题,尽管它们对于小规模问题表现出良好的效果,但由于车间调度问题是NP难的问题,难以有效解决中大规模的实际应用问题。相比之下,近似方法则主要包括启发式技术和智能优化技术两大类。其中,基于优先级规则、CDS（Campbell-Dudek-Smith）等启发式方法由于其相对容易实现且计算复杂度较低的特点,能够快速构建出可行解并应用于实时调度系统多年,然而这类方法往往缺乏全局性思维,无法保证所得调度方案的质量特别是在面对复杂工况时更是存在明显局限性

近年来,随着遗传算法（GA）、蚁群优化（ACO）以及人工蜂群（ABC）等智能优化技术的发展和完善,这些改进型智能优化方法已经被广泛应用于车间调度领域并取得了显著成效

尽管这些智能优化技术能够在许多实际场景下提供接近最优的解决方案但在处理大规模问题时仍然面临收敛速度慢且难以有效利用历史信息学习经验等问题.特别是在大规模车间调度中这类技术往往依赖于设计者的经验和直觉缺乏系统性的改进机制导致其应用效果仍有待进一步提升

Cunha等对作业车间调度、进化算法与深度强化学习领域的研究现状进行了系统综述，并提出了基于深度强化学习（DRL）解决作业车间调度问题的一种新体系结构。Liu等则开发了一种结合异步更新机制与深度确定性策略梯度方法的并行训练框架，在该框架中集成演员-评论家网络架构以训练智能体群；Han 等基于析取图调度理论构建了一种可直接根据制造系统动态状态自适应学习行为策略的DRL框架；Wang 等采用近端策略优化算法求解动态FSP获得最优解；Luo将深度Q-网络与6种经典的组合调度规则相结合，在新作业插入场景下实现了以最小总时延为目标的动态柔性作业车间调度问题的有效求解；Zhang等创新性地应用图神经网络技术嵌入求解实际规模下的作业车间调度问题，并验证了其提出的智能体（agent）在不同规模实例间具有良好的泛化能力；王凌等基于最小化最大完工时间目标函数提出了一种融合深度强化学习与迭代贪婪算法的流水车间调度（FSP）求解框架；Luo等则开发了一种包含勘探回路与开发回路的双环深度Q-网络架构，在模拟作业随机到达条件下实现对复杂多机器并行加工环境下的作业车间调度问题的有效管理；总体而言，在现有研究工作中基于DRL方法的工作主要聚焦于单台机器加工或流水车间调度场景下的路径规划问题；而对于状态空间与动作空间维度更高的多机器并行加工环境下的人机协作Flexible shop scheduling problem（HFSP），当前研究仍处于探索阶段。

2 问题描述和数学表达

2.1 符号解释

（1）索引

i：作业索引，i∈ {1,2,…,N}；

k：工序索引，k∈{1,2,…,K}；

m：工序k 的机器索引，m∈{1,2,…,Mk}。

（2）参数

N：作业总数量；

K：工序总数量；

Mk：工序k的机器总数量；

rti：作业i到达系统的时间；

st ik：作业i在工序k的可开始加工时间；

st ikm：作业i在工序k的机器m上的开始加工时间；

变量说明如下：

pt ikm表示工件k在第k步加工步骤上使用设备m所需的时间；
ct ik表示工件i完成第k步加工步骤所需的时间；

ct ikm：作业i在工序k的机器m上的完工时间；

Cmax：最大完工时间。

（3）决策变量

本文重点探讨了工业物联网背景下一类典型车间调度问题。其分布在炼钢、纺织、机械及半导体等多个行业领域。具体而言，在数学模型中我们假设存在一个由N个独立的作业组成的集合J={j₁,j₂,…,j_N}以及K个连续的工艺阶段。每个工艺阶段k配备有M_k台机器（其中M_k≥1），这些机器编号为m（1≤m≤M_k）。每一个待处理任务j必须按照从第1个到第K个工艺阶段的顺序依次经过所有指定的制造资源点。特别地，在FSP场景下（即Fixed Sequence Problem），所有任务都必须按照相同的固定工艺路线依次经过每一台设备；而在HSPTP（Heterogeneous Series Parallel Task Processing）场景下，则要求不同任务可以在同一工艺阶段上选择不同的设备执行加工操作。根据生产系统的实际情况不同，在建模过程中我们需要考虑两种不同的情况：第一种情况是固定序列生产系统(FSP)，在这种系统中我们只需要确定各个任务在整个系统内的最优调度顺序即可；第二种情况是混合序列平行生产系统(HSPTP)，此时不仅需要确定各个任务在整个系统内的最优调度顺序，并且还需要明确各个任务的具体执行路线以确保系统的高效运行。

在工业生产实践中，存在部分车间调度问题并不完全符合标准型车间调度问题（FSP）或高阶车间调度问题（HFSP）。这些不符合标准型车间调度问题（FSP）或高阶车间调度问题（HFSP）的实际生产场景中，在某些关键作业执行过程中会遇到工艺流程跳越特征的问题。针对此类情况，在不破坏原有作业顺序的前提下，并不意味着这些跳越性的工艺步骤就无法被纳入正常的生产流程安排中。因此，在实际操作中可将这些需要跳过的工艺步骤纳入常规加工流程，并设定其所需时间为零；同时通过引入虚拟专用设备来处理这类工艺步骤时，并配置虚拟专用设备专门用于处理这类跳越性工艺步骤，并将其视为常规操作而不影响其他作业的正常加工次序。

2.3 问题的数学表达

基于假设条件，在本研究中我们假定每个作业i到达系统的时刻 $rt_i$ 是已知参数。据此推导可知，在第一阶段的加工开始时间 $sti1$ 至少不早于到达时刻 $rt_i$ ，可用数学表达式表示。

任意作业i仅能在前一工序k-1完成后方能启动下一工序k的加工流程，并且本文假设缓冲区容量无限大且在机器接收新作业之前即可排队等待处理。即分配至机器m的作业i在其到达时发现机器已占满需排队等候。因此，在确定操作间st_ik（表示第i个操作在第k道工序开始执行的时间）时需考虑以下两个因素：一是第i个操作于上一工序k-1结束后的完成时刻；二是与在同一台设备m上已被分配的操作j完成时刻的最大值作为起始基准点。

本文假设作业i在相邻工序无转运及中断的情况开展生产，在第k道工序上机器m的加工时间为已知确定值pt_{ikm}。由此可知，在第k道工序上完成时间为C_{ik} = S_{ik} + t_{ik}(M_m)，其中S_{ik}表示第k道工序可开始加工的时间基础值

同时，在任意一个生产过程中的作业i，在某一具体阶段k时仅能被安排在一台特定的设备上进行加工，并且该作业在此阶段中最多只能进行一次。若该作业在这一阶段中存在工艺跳变，则引入虚拟设备完成所需工艺操作，并将其所需时间设定为零（即）。

最后，任一工序k的机器m在同一时刻最多只能加工一个作业，即

因此，在工序k上由机器m分配处理的作业i的完工时间ct_ikm即为其在本工序上的完工时间。而其开始加工时间st_ikms_t^{mk_i则表示为该作业在本工序上的完工时间ct_ikms_t}mk_i与其所需加工时间pt_ikmp_t^mk_i之差。

本文的主要目的是优化生产安排。通过尽可能缩短生产周期内的任务延迟完成时间，并提前投入生产以实现资源的最佳利用，在此过程中我们希望最终能够达到预定的目标。该问题的目标是最小化最终生产阶段所需的时间，并在此基础上建立相应的数学模型。

3 车间调度模型和算法

3.1 马尔可夫决策过程

本文采用马尔可夫决策过程（MDP）模型对车间调度问题进行建模。该模型由四个组成部分构成：状态集S、动作集A、状态转移概率矩阵Ps,a以及即时奖励函数R。其中,S代表所有可能的状态集合,A代表所有可执行的动作集合,P(s,a,s′)表示从当前状态s出发执行动作a后转移到新状态s′的概率,R(s,a,s′)则表示从当前状态s出发执行动作a后转移到新状态s′所获得的即时奖励值。具体而言，在每个时间段t开始时,agent根据当前环境状态st观察到信息，并选择执行相应动作at。随后,agent根据所采取的动作at获得相应的即时奖励R(at).接着,环境从当前的状态st转移到下一时刻的状态st+1,agent持续与环境交互,在长期交互中积累最大的总奖励值。

3.1.1 状态

车间调度模型在时间步 t 时的状态st为元组

同样地，在DRL agent中也存在输入数据这一部分。作业i在工序k上机器m所需的加工时间ptikm被作为系统输入已知信息。这一信息属于作业i的静态特征，在任何时候都不变。而当作业i进入各工序k时，则其动态特征st ikm和完工时间ct ikm可通过式(7)与式(8)进行计算。本文将每个作业定义为一个包含两部分特性的对象：其中fi表示该作业的静态特征信息；而另一部分则表示该作业在时间步t时的状态信息ft = st ik m(t)。特别地，在某一工序中的所有作业转移至下一工序时，则状态集St也随之转移到下一个状态集。

3.1.2 动作

在车间调度模型中，在时间步t的状态St下完成的作业i被分配给工序k上的一台机器m。因此，在每道工序k上需要为每个作业i确定其对应的待加工机器以及操作次序。由于每个作业i在时间步t只能被分配到一台机器，并且仅能在该道工序上加工一次，则FSP和HFSP各自对应的动作空间大小分别为|N|和|NMk|。
为了实现操作流程中的任务分配与调度功能，在每道工序k上的机器按照编号依次执行动作：每次操作可以选择一个正常作业节点或虚拟节点j0，并记录操作次数；若选择的是正常作业，则将其mask值置为0；如此反复直到所有正常作业都被成功处理完毕或操作次数达到预期上限。
如图2所示给出了输入序列和输出序列的具体示例：当给定两台并行机器时，在输入序列为{j0,j1,j2,j3,j4,j5,j6}的情况下：

输出序列为{j2,j1,j3}表示由机器m1分派处理；
输出序列为{j6,j4,j5}表示由机器m2分派处理。

图2 输入序列和输出序列的特定示例

3.1.3 奖励

奖励则表征了 agent 在特定情境下执行操作的有效性程度。本研究旨在通过逐步优化车间调度策略来实现作业安排的最优解。在车间调度模型中设定奖励函数R时应遵循这一原则：较小的目标值对应更高的奖励分配。

3.1.4 策略

在给定状态 $S_t$ 的情况下, 策略 $\pi(a_t | S_t)$ 会给出从行动空间 $A_t$ 中选择动作的概率分布. 最佳策略 $\pi^*(a_t | S_t)$ 将会生成最优解. 因此, 我们的目的是让 $\pi(a_t | S_t)$ 尽可能接近 $\pi^*(a_t | S_t)$ .

3.2 车间调度模型总体架构

请告知车场调度系统的整体框架位置信息？它采用了一种基质神经元算法构建系统主体，请详细说明系统工作流程并提供具体的数学表达式描述

图3 车间调度模型总体架构

（1）编码器

在PN架构中，默认采用Recurrent Neural Network（RNN）进行编码器的设计。值得注意的是，在当前研究问题所涉及的数据序列中，默认操作任务之间的相对顺序并不具有特定的意义。由于无论进行怎样的随机打乱排列都不会丢失原始信息，则使得这类场景下传统的基于序列的任务难以有效建模。由此可得，在车间调度模型的设计过程中，默认舍弃掉了Recurrent Neural Network（RNN）结构，并选择了直接采用One-Dimensional Convolutional Layer来进行特征提取。

映射到矩阵，从而降低计算复杂度的同时不降低效率。

（2）解码器

解码器由长短期记忆网络（LSTM）以及注意力机制与掩膜矩阵构成。对于每一个时间点t，在接收前一时刻的状态ht-1与输入信号jt（此处jt代表前一步骤的输出yt-1）后，在通过一系列非线性变换作用下生成当前时刻的状态ht。基于编码器生成的输出向量作为后续处理的基础

从输入序列中提取所有作业节点的动态特征dt及LSTM模型的状态ht传递至注意力机制之后随后通过掩膜矩阵计算出各作业节点的概率分布情况接着在时间步t时选择概率值最高的作业节点作为输出结果agent系统在完成时间步t的选择后会依次更新作业的动力学特征从dt变为dt+1以及掩膜矩阵的状态随后传递给下一个时间步t+1供后续处理使用。

在时间步t时，注意力机制通过计算输入序列中各个作业节点的概率分布作为输入序列中各作业节点的指针，并引入一个与输入序列长度一致的掩膜矩阵来约束agent的决策过程。该掩膜矩阵中的每一个元素均与输入序列中的相应作业节点一一对应，并且每个元素取值为0或1；特别地，在虚拟作业节点位置上的所有元素值始终保持为1以确保agent能够在任何情况下都选择虚拟作业节点作为输出选项。当agent在时间步t选择了正常操作的第i个作业节点后，则将其对应的掩膜矩阵中的该位置元素设置为0以阻止其他相关操作选项的选择干扰。随后，在结合上述掩膜矩阵的基础上并采用式(11)对时间步t时各操作选项的概率分布进行最终计算处理；其中va和wa均为可训练的学习参数变量；最后系统将选取该概率分布中出现概率最高的操作选项作为当前时间步的操作输出结果并完成整个决策过程

3.3 基于DRL的车间调度算法

本文采用基于深度强化学习（DRL）的方法对车间调度问题进行优化模型训练）。这两个子网络分别负责不同的任务：一个是演员网络（Actor），用于预测每个作业节点在时间步t处的状态；另一个是评论家网络（Critic），用于计算整个输入序列的任务期望奖励，并通过调整其参数ϕ来优化模型性能

基于深度强化学习（DRL）的车间调度算法如算法1所示。第一步是对每个作业的静态特征数据进行标准化处理以提高训练效率随后预设演员网络与评论家网络的参数值。在每个训练周期内重置梯度以及各作业第一道工序的时间参数并从训练集中随机抽取J个实例这些实例均为由N个不同作业组成的集合。在每道工序的第一时间步对每一个实例j初始化时间步t掩膜矩阵以及动作计数器并构建输入序列根据公式（2）与（3）更新各作业i的任务最早开始时间和完成时间stik与ctik。演员网络通过观察当前系统状态并在式（11）的基础上选择相应的输出节点yt从而引导系统的状态更新

该算法通过设计掩膜矩阵和时间步长等参数进行动态资源分配，在工业场景中展现出较高的调度效率。具体而言，在实例 j 的调度过程中，当实例 j 中的所有正常作业被合理分配到相应的机器或操作次数达到最大值时，则进入下一阶段的操作流程。一直到所有阶段的任务都被正确分配完毕为止，在演员网络与评论家网络之间依次计算实际奖励 Rj 和期望奖励 E[Rj] 并进行误差反向传播更新网络参数。经过完成 J 个实例的训练后，根据式(12)和式(13)重新计算并更新演员网络与评论家网络的梯度参数值。反复执行上述操作步骤直至训练达到预设的最大迭代周期 epoch 数目限制。最终训练完成后所得模型参数即可用于解决后续的实际车间调度问题。

其中，

在初始时间步 $t_0$ 时，
$Y_j$ 代表每个任务阶段 $k$ 的任务输出序列，
$R_j$ 代表各任务节点 $k$ 的实际累积奖励值，
$P_k$ 代表各任务节点 $k$ 的成功概率分布，
以及
$E_k^i$ 代表各任务节点 $k$ 处各个体 $i$ 的成功期望奖励值。

算法1基于DRL的车间调度算法

输入：所有作业的静态特征fi和动态特征

输出：作业i每一个在不同工序k上相应的机器m上的生产起始时间和完成时间st ikm和ct ikm。

归一化输入的静态特征：

；

随机初始化演员网络的参数θ和和评论家网络的参数ϕ；

for epoch=1,2,"do

重置梯度：dθ←0，dϕ←0；

重置时间：sti1=rti，cti1=sti1+pti；

从训练集中随机抽取J个实例；

for k=1,2,",K do

初始化时间步t←0，掩膜矩阵

mask=[1,1,…,1]，count=0；

利用式（2）和式（3）更新可开始加工

时间st ik和完工时间ct ik；

if (count≤NM k＆＆mask!=[1,0,…,0])

then

for m=1,2,…,Mk do

观察状态

，根据选择输出节点yt；

更新状态

，maski =0，

时间步t←t+1，count++；

end for

end if

利用式（7）和式（8）计算每个作业i在分派到的机器m上的st ikm和ct ikm；

根据式（10）计算Rj，

；

end for

计算dθ和dϕ并分别更新演员网络和评论家网络；

end for

3.4 时间复杂度分析

agent涉及动作决策和网络训练过程。根据算法1的描述可知，执行一个动作的时间复杂度TCact定义为O(K·N·M·k)，其中变量K代表工序总数，在Flow shop scheduling (FSP)场景下，默认情况下每道工序只有一台机器可用（即M_k=1）。对于批量大小为b的一组任务来说，在完成一个批次所需的时间复杂度计算上遵循相同的公式结构。

在深度学习模型中, 状态维度 $|S|$ 和动作维度 $|A|$ 的具体数值分别对应于网络输入层和输出层的神经元数量. 其中, nhid参数表示隐藏层神经元的数量.

环境中的计算涉及更新状态与反馈奖励两个方面，在参考文献中可发现该算法所对应的环境计算复杂度与行为计算复杂度相当接近。针对J个训练集及e个epoch的训练过程而言，在参考文献中可发现该算法所对应的环境计算时间复杂度TCtrain为：

基于该测试过程仅需在每次选择动作时获取网络的结果，则其时间复杂度相对较低。

TCtest为：

算法的训练时间和测试时间因变量N、K及Mk的增长而均呈现多项式级数上升趋势。尽管b、nhid、J和e等常量可能对算法训练时间产生一定影响，但这并不会削弱其在大规模场景中的扩展能力。特别地，在云端服务器上进行离线处理能够显著提升效率，并仅需定期更新模型参数即可完成后续工作。

在本节中进行了详细对比分析的基础上，将重点放在了对各种调度策略的具体实现上。具体而言，在这一部分我们将逐一探讨基于传统规则驱动方法的应用场景与性能特征，并通过实例展示其实际操作流程。对于每一种方法而言，在初始状态下系统将按照指定顺序依次执行各项任务，并通过预设的逻辑机制完成相应的作业安排。其中，在讨论这些经典方法时，默认情况下假设各作业具备相同的资源需求与运行条件。

基于优先权的调度规则是一种以作业到达系统时间为依据，并结合各阶段所需处理时间长短来进行任务分配的方法。该算法首先根据各阶段任务处理所需时间长短对所有候选机器进行排序，在每个阶段均采用当前累计完成时间最少的一台机器来进行任务分配。具体而言，在每一级任务处理中使用快速排序法进行排序所花费的时间复杂度是 $O(N \log N)$ ；而选择一台可用机器进行处理所需的时间复杂度是 $O(N \log (N M^k))$ 。因此整个算法的时间复杂度计算结果是 $O(KN \log (N M^k))$ 。

本研究采用仿生学原理对智能优化算法进行了系统分析。蚁群算法（ACO）通过模拟生物群落信息素传播机制，在群体协作中构建问题最优解；遗传算法（GA）则将问题解编码为染色体形式，在适应度评价基础上不断进化直至寻找到达目标的最优路径；而改进型蚁群算法（ACO-TS）在此基础上增添了禁忌矩阵过滤历史轨迹的功能，在减少路径冗余的同时显著提升了搜索效率。具体而言：ACO算法的时间复杂度为 $O(IKAN^2 \times M \times K)$ ；GA算法的时间复杂度则为 $O(IKGN^2 \times log(N \times M) \times K)$ ；ACO-TS方法维持了原有的基本框架但通过动态轨迹过滤实现了更快捷的目标定位过程。

4 实验结果与分析

4.1 实验设置

该研究在Taillard提出的FSP公共基准数据集中展开实验分析。这些实例涵盖了不同作业量和工序复杂度的情况，并分为多个规模组别，在每个组别中均包含十个不同的具体案例。受限于篇幅限制，在现有条件下本研究选择每个规模组内的第十个实例来进行性能评估，并与文献[32]中的研究结果保持一致。

HFSP由于缺乏标准数据集而难以直接验证，在本研究中我们采用了NISCO工厂的实际生产数据作为实验基础。该工厂生产流程包含四个主要生产环节，在前三个环节各配备了三台并行生产设备，在最后一个环节则仅配置了一台设备以确保生产效率的最大化。为了便于评估算法性能并保证实验结果的真实可靠性，在模拟实验时我们分别构建了三种不同规模的操作任务配置：即50个作业任务配（3,3,3,1）台设备、100个作业任务配（2,2,2,1）台设备以及200个作业任务配（1,1,1,1）台设备的情形。值得注意的是由于NISCO公司仅提供了前四个生产阶段的数据因此在实验设计中我们固定了生产阶段的数量来进行对比分析

本研究采用开源Python框架TensorFlow开发车间调度模型，并在高性能计算集群上进行训练。具体而言，在NVIDIA Tesla P100-PCIE 16 GB显卡支持下完成模型训练，并在联想笔记本电脑（配置：Intel(R) Core(TM) i7-6700 CPU @ 3.40 GHz, 8 GB内存）上进行验证工作。在模型训练环节中，为每种规模生成5万个实例，并参与了400轮训练过程。激活函数选择tanh以模拟神经网络特性。选择5万实例数量是基于对不同规模场景下的稳定配置需求考虑；这个数量可以根据实际需求进行增减或动态调整，并需确保各规模下的测试与验证数据具有一致分布特性

4.2 收敛性分析

研究团队对规模为100×10的模型，在不同配置下的实验中通过控制变量法，在FSP框架下考察了模型的收敛性。

本研究探讨了隐藏层中不同神经元数量（分别设置为8、32、64、128和256）对模型收敛性能表现的影响，并将实验结果展示于图4中。其中Reward指标基于数据归一化处理后的结果。研究表明，在一定范围内（即当神经元数目处于合理区间时），设置越高能够使模型具有更快的初始学习速度（即初始阶段训练效率更高）。然而随着神经元数目过多（例如设定为256），尽管最终的学习效果较好（即最终测试准确率较高），但由于计算资源限制或其他因素的影响，在较长的时间跨度内（即需要较长训练时间）才能稳定地达到预期的学习目标。经过实验分析发现，在本研究中选择隐藏层神经元数目设置为128个以实现最优的收敛速率运行是较为合理的策略。

图4 不同神经元数量下模型的收敛性

其次，在本文中探讨了各模型在不同学习率下的表现。如图5所示，在最低的学习率情况下（即为4e-5），训练所需时间显著增加；而当设置较高的学习率（如为3e-2）时，则会导致算法难以收敛。因此，在本研究中建议采用3e-4作为最佳的学习率设置。

图5 不同学习率下模型的收敛性

进一步阐述本研究通过不同批量尺寸（1、8、32、64和128）对模型收敛性进行了系统性分析，并具体可见图6中所展示的结果对比。研究表明，在较小的批量尺寸下（如1维或8维），模型虽然能够实现快速迭代更新（即梯度更新频率更高），但其带来的显著问题是：其梯度振荡幅度显著增大（即权重更新波动范围明显扩大），这不利于模型的稳定训练过程（即不利于模型达到预期性能目标）。相反，在较大规模的批量处理下（如64维或128维），虽然能够有效减少权重更新过程中的振荡现象（即梯度振荡幅度减小），但这种模式往往会导致所需迭代次数相应增加（即达到相同性能目标所需的训练轮次增多）。在本研究中发现当采用32维批量处理时：其振荡程度显著降低（即权重更新更加平滑稳定），同时能够实现较快的速度达到预期性能目标。这表明最佳选择是将批量处理规模定为32维

图6 不同批尺寸下模型的收敛性

本文探讨了作业总量和机器总量分别取2₀₁₀、5₀₁₀、1₀²²（即2₀¹²）、2₀²¹时FSP算法的收敛特性。在各不同规模下的模型收敛性如图7所示，在各不同规模下模型的收敛速度呈现逐渐减缓的趋势。

图7 不同规模下模型的收敛性

4.3 与其他算法的性能对比

为了系统性评估所提出的基于深度强化学习（DRL）的方法与现有调度算法的效果差异性问题, 本文不仅进行了对比分析, 并且对现有的FIFO、LIFO、LPT、SPT等经典调度策略进行了系统性研究;特别地, 在针对复杂调度问题(FSP)时, 本文还对比了文献中提出的DRL_IG算法;在实验设计阶段, 则采用了模拟运行10次取平均值的方法, 以尽可能消除算法运行结果中的不确定性影响, 同时考虑实际运行的时间成本因素;每个实例均被独立运行10次后取平均值结果（保留整数位）。

实验数据结果已体现在表1中。对比分析表明，在基于优先权的规则调度方法、智能优化方法以及现有的DRL-IG方法中，本文提出的方法表现更为出色。通过对比可以看出，在作业量（N）与机器数量（M）分别取值50×10、100×10以及200×10等中大型规模场景下进行分析。值得注意的是，在面对更大规模的应用时，本文提出的方法虽然在性能上没有显著提升空间，但现有研究中的DRL-IG方法却存在明显的不足：该方法需要将模型预先离线训练48小时之久，并在迭代搜索阶段（Iterated Greedy, IG）进行8 ousand次迭代循环操作。而在此过程中涉及的网络训练及运行环节都需要耗费较大的计算资源消耗量，在实际应用环境下难以满足更大规模实时动态环境的需求

HFSP实例结果如表2所示，在处理作业总量为50的小规模HFSP场景时，本文提出的方法在性能上优于基于优先权的传统调度规则，并与智能优化算法达到了相当水平。这一现象的原因在于，在作业、工序及各道工序上的可加工机器数量较小时（即操作资源较为有限），智能优化算法仍能通过合理配置实现较好的效果。具体而言，在NISCO厂宽厚板卷作业中（该厂的特点是各道工序上所需加工时间差异较小），相比于传统调度规则方法，在数值指标上并未显示出显著的优势。然而，在中大规模场景（如处理100或200个作业）下，则展现出了显著的优势，并且在与其他对比方案相比时表现得更为优秀。值得注意的是，在相同作业但不同可加工机器数量下的对比结果显示，在资源富余的情况下能够显著提升生产效率

研究表明

5 结束语

本文开发了一个基于指针网络的智能车间调度系统，并设计了一种基于深度强化学习（DRL）的智能车间调度算法。该算法能够在工业物联网环境下充分挖掘大量无标签数据的学习与更新潜力。文章系统性地研究了该模型在不同参数设置下的收敛特性，并通过与现有多种算法进行对比实验来验证其性能优势。实验结果表明，在处理不同规模的问题时，所提出的算法均能迅速且高效地获得更优解，并展现出更强的实用性尤其是针对中规模及以上的调度问题。展望未来研究方向，则是将重点探索如何将DRL技术与工业物联网中的作业批处理调度问题相结合以解决更为复杂的车间管理难题。

全部评论 (0)

还没有任何评论哟~

基于深度强化学习的智能车间调度方法研究

摘要: 工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路。智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一，要求以最大完工时间最小化分派多道工序和多台机器的生产调度。首先，...

基于深度强化学习的智能车间调度方法研究

摘要工业物联网的空前繁荣为传统的工业生产制造模式开辟了一条新的道路。智能车间调度是整个生产过程实现全面控制和柔性生产的关键技术之一，要求以最大完工时间最小化分派多道工序和多台机器的生产调度。首先，将...

基于深度强化学习的智能车间调度方法研究

基于多动作深度强化学习的柔性车间调度研究（Python代码实现）

👨‍🎓个人主页 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭：行百里者，半于九十。

基于深度强化学习的智能网络安全防护研究

摘要：人工智能（ArtificialIntelligence，AI）的快速发展为网络空间安全对抗提供了新的思路和技术手段，然而AI在网络安全领域的应用将加剧网络攻防对抗的速度、烈度、复杂度。通过研究...

基于多智能体深度强化学习的多域协同抗干扰方法研究

目录 0引言 1相关工作 2系统模型与问题建模 2.1系统模型图1 图2 2.2问题建模 3多域协同抗干扰方法 3.1多用户马尔可夫决策过程图3 3.2信道选择和数据调度联合决策算法图4 4仿真...

基于深度学习的智能算法研究与应用

作者：禅与计算机程序设计艺术《基于深度学习的智能算法研究与应用》 1.引言 1.1.背景介绍深度学习是一种强大的人工智能技术，通过多层神经网络的构建，能够实现图像识别、语音识别、自然语言处理等复杂...

基于深度学习的智能算法研究与应用

作者：禅与计算机程序设计艺术 “深度学习”（DeepLearning）近几年成为热门话题，被认为是继机器学习、统计学习之后又一个重要的方向。人们对于深度学习的理解主要围绕着三个方面：数据、模型和优化方...

基于深度强化学习的微网P2P能源交易研究

基于深度强化学习的微网P2P能源交易研究摘要：代码主要做的是基于深度强化学习的微网P2P能源交易研究，具体为采用PPO算法以及DDPG算法对P2P能源交易模型进行仿真验证，代码对应的是三篇文献，内容...

动态分区分配的“首次适应算法_基于深度强化学习的自适应车间调度问题研究...

今天给大家带来一篇我们关于使用深度强化学习求解作业车间调度问题的新作：Han,B.A.,&Yang,J.J.2020.ResearchonAdaptiveJobShopSchedulingProble...

是否确定退出登录?

基于深度强化学习的智能车间调度方法研究

0 引言

1 相关工作

2 问题描述和数学表达

2.1 符号解释

2.3 问题的数学表达

3 车间调度模型和算法

3.1 马尔可夫决策过程

3.2 车间调度模型总体架构

3.3 基于DRL的车间调度算法

3.4 时间复杂度分析

4 实验结果与分析

4.1 实验设置

4.2 收敛性分析

4.3 与其他算法的性能对比

5 结束语

全部评论 (0)

相关文章推荐

基于深度强化学习的智能车间调度方法研究

基于深度强化学习的智能车间调度方法研究

基于深度强化学习的智能车间调度方法研究

基于多动作深度强化学习的柔性车间调度研究（Python代码实现）

基于深度强化学习的智能网络安全防护研究

基于多智能体深度强化学习的多域协同抗干扰方法研究

基于深度学习的智能算法研究与应用

基于深度学习的智能算法研究与应用

基于深度强化学习的微网P2P能源交易研究

动态分区分配的“首次适应算法_基于深度强化学习的自适应车间调度问题研究...