基于深度强化学习的不确定作业车间调度方法|||北京沫之东生物技术有限公司

1次围观

作业车间调度是具有非确定性多项式（Non-deterministic polynomial，NP）难的经典组合优化问题。在作业车间调度中，通常假设调度环境信息已知且在调度过程中保持不变，然而实际调度过程往往受到诸多不确定因素影响（如机器故障、工序变化）。本文提出基于混合优先经验重放的近端策略优化（Proximal policy optimization with hybrid prioritized experience replay，HPER-PPO）调度算法，用于求解不确定条件下的作业车间调度问题。将作业车间调度问题建模为马尔科夫决策过程，设计作业车间的状态特征、回报函数、动作空间和调度策略网络。为了提高深度强化学习模型的收敛性，提出一种新的混合优先经验重放模型训练方法。在标准数据集和基于标准数据集生成的数据集上评估了提出的调度方法，结果表明：在静态调度试验中，本文提出的调度模型比现有的深度强化学习方法和优先调度规则取得了更精确的结果。在动态调度试验中，针对作业车间的工序不确定性，本文所提出的调度模型可以在合理的时间内获得更精确的调度结果。

来源出处

基于深度强化学习的不确定作业车间调度方法 http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202406019