- 計算智能算法及其生產調度應用
- 任劍鋒
- 1156字
- 2024-06-28 19:12:24
1.4 技術路線及創新點
1.4.1 技術路線
本書在深度學習、強化學習、深度強化學習以及其他相關技術的基礎上解決車間生產調度問題,技術路線如圖1.3所示。

圖1.3 技術路線圖
1.4.2 創新點
在新一代人工智能技術迅速發展的背景下,深度強化學習等方法在車間生產調度問題上的應用還有待深入研究,本書研究的出發點是將相關技術和方法用于求解流水車間調度、作業車間調度、多目標車間調度和分布式車間調度等問題,力爭在以新一代人工智能技術求解生產調度等組合優化問題上做一些工作。結合幾種生產調度問題的實際情形,分析完善了深度學習、強化學習、深度強化學習方法在生產調度問題中應用的理論依據和可行性,在實驗的基礎上較好地找到了方法與問題的結合點,以深度強化學習方法為主線,其他相關技術為補充,取得了豐碩的研究成果,在理論和方法上做了一些創新工作。本書的主要創新點如下:
設計了以基于值函數的深度強化學習方法求解車間調度問題的模型。首先,改進了兩種基于監督學習的序列模型用于求解作業車間調度問題,以長短期記憶網絡為主框架,基于自注意力和多頭自注意力機制的序列模型,構建了深層編碼組件和解碼組件,同時嵌入指針網絡和條件隨機場的問題模型,將工件的工序位置理解為以一定的概率存在于某個位置,設計了深度神經網絡逼近值函數的方法。其次,在強化學習框架下分析調度問題的底層特征,將啟發式規則用于強化學習動作構建,通過深度學習框架將當前狀態映射為最佳調度規則,將車間調度問題映射到強化學習模型并加以解決,為基于值函數逼近的強化學習算法求解類似問題提供了參考。
提出了一種將基于策略梯度的深度強化學習算法用于求解車間調度問題的場景。設計了一種基于長短期記憶網絡的深度序列模型,結合指針網絡提高工序位置指向的準確性,將工序排列空間中不同工序序列的差異作為獎勵信號,采用策略迭代的深度強化學習算法進行問題求解。實驗結果表明,基于策略梯度的深度強化學習算法具有解決作業車間調度問題的能力,所設計的模型在解決此類問題時具有可行性和有效性。
設計了基于混合Q-learning的多目標車間調度問題算法。結合強化學習算法、帶精英策略的非支配排序遺傳算法和蟻群算法,對帶精英策略的非支配排序遺傳算法的交叉和變異機制進行改進,加入基于N5鄰域結構的局部搜索策略,設計了新的算法并進行多目標問題求解。在Pareto解的基礎上針對能耗目標進一步優化,設計了強化學習遺傳蟻群算法并進行求解,拓寬了強化學習算法的應用場景。
提出了一種基于NASH-Q-learning的分布式車間調度問題算法。在分布式流水車間調度問題背景下,深入分析了多智能體強化學習方法,在NASH均衡和NASH-Q-learning理論框架下,結合平均場理論提出了多智能體車間調度算法。通過與改進的迭代貪婪算法進行對比,驗證了深度強化學習方法在求解分布式車間調度問題時的有效性,且通過實驗證明了該算法也適用于規模較大的分布式生產調度問題。