- 計算智能算法及其生產調度應用
- 任劍鋒
- 10086字
- 2024-06-28 19:12:23
1.2 車間生產調度問題及研究現狀
1.2.1 車間生產調度問題
加工任務中有明確的工件個數,每個工件有相應的工序,每個工序要經過相應的加工機器,車間生產調度是指在各種約束條件下,完成生產成本、行為情景等一個或多個目標,實現人們對生產調度問題的規劃愿景。科學系統的方法論應用到生產調度問題中以后,逐漸形成較為完整的理論體系以及相應的模型和算法,取得了一系列具有理論和應用價值的研究成果,為復雜的生產調度問題提供了解決方案。
工件、加工機器和優化準則是車間生產調度問題的三個基本要素,通常采用三元組α、β、γ進行描述[9],其中α域表示加工機器環境,通常只包括單一的選項;β域表示加工特征和約束細節,可能包括多個選項,也可能不包括任何選項;γ域表示調度優化的目標,通常只包括一項。α域表示的加工機器環境情況如表1.1所示。
表1.1 加工機器環境

續表

β域表示的加工特征和約束細節情況如表1.2所示。
表1.2 部分加工特征和約束細節

γ域表示的調度優化的目標如表1.3所示。
表1.3 部分調度優化目標

續表

車間生產調度問題一般具有如下特征:
復雜性:生產調度問題通常比較復雜,求解模型多為NP-hard性質的問題,精確解優化方法難以得到令人滿意的結果。
動態性:在生產調度過程中,隨機工件到達、機器故障、加工時間的不確定等因素都會導致調度問題具有一定的動態不確定性或模糊性。
多約束性:在生產調度過程中,機器的生產能力、工人的作息、產品的完工時間、生產成本等約束條件都會增加問題的求解難度。
多目標性:在進行一項生產任務時,為了獲得最佳的經濟效益和社會效益,需要用不同的指標來衡量,導致在生產調度問題中會有不同的目標,通常這些目標是相互沖突的。
1.2.2 研究現狀
1.車間生產調度問題算法研究現狀
生產調度問題受到了工程技術、優化、數學、計算機等領域研究者的共同關注,從調度問題的建模、算法設計和工程應用等多個角度開展了深入的研究。隨著經濟社會發展和科學技術的進步,新技術結合新時代生產調度問題的特點,涌現出了很多新的生產調度優化方法,從問題解決方法的角度一般可分為運籌學方法、啟發式方法和智能優化方法。
將傳統的運籌學方法應用到生產調度問題中,比如用動態規劃法求解流水車間調度問題的最小加工時間問題[10],分支定界法求解車間調度問題[11],以及拉格朗日松弛法[12]和整數規劃法[13]求解生產調度問題。啟發式方法指人們在解決問題時所采取的一種根據經驗規則解決問題的方法,在有限的搜索空間內尋求問題的解決方案,這類方法未必能找到最優解,但可通過建立科學合理的啟發式規則,利用啟發式函數在多項式時間內找到問題的滿意解。比如隨機工件到達和機器故障等不確定問題,結合動態車間調度問題模型和啟發式算法進行問題求解[14]。在作業車間中受干擾的重調度或動態不確定問題,利用切換調度、無置換和純置換調度等啟發式算法,實現工件的加工時間加權延遲最小的目標[15]。也有研究者基于已輸入的重調度中斷信息,產生新的時間表并輸出它們相關的性能度量,克服了其他重調度方法的缺點[16]。Lodree等[17]針對以最小拖期為優化目標的流水車間調度問題,將多機器問題分解為若干個單機器問題,通過求解單機問題的最優解來獲取調度問題的最優解。
研究表明,由于實際工程問題的復雜性、大規模性、不確定性、多約束性、非線性、多極值和建模困難等特點,要尋找最優解非常困難,有工程意義的求解算法是在合理、有限的時間內尋找到近似最優的可行解。因此,基于統計式的全局搜索技術、遺傳算法和神經網絡等元啟發式方法在生產調度領域得到快速發展,引起了國內外研究者的共同關注。
(1)遺傳算法求解車間生產調度問題。
遺傳算法是一種通過模擬自然進化過程搜索最優解的方法,具備并行性和魯棒性等特點,被人們廣泛應用于組合優化、機器學習、信號處理和自適應控制等領域[18]?;谝巹t的遺傳算法以最小化空閑時間和拖期懲罰為目標,被成功應用于求解工件隨機到達、批量可變的最小化延遲問題[19]。Chen等[20]在考慮優先規則的基礎上,將基于遺傳算法的調度方法成功應用于動態生產系統。馬衛民等[21]在典型遺傳算法的基礎上對算法進行改進,利用改進的多種群遺傳算法求解作業車間調度問題,引入移民和升降級等機制提高算法的尋優效率。Rezaeian等[22]結合遺傳算法提出了一種新的混合整數線性規劃模型,通過實例對遺傳算法的性能進行了分析,結果表明在合理的計算時間內具有良好的性能。學者張紀會等研究了雙層優化算法的外層工藝路線優化問題[23],學者劉愛軍等用基于自適應遺傳算法的多目標柔性動態調度算法解決多目標調度問題[24]。
(2)蟻群算法求解車間生產調度問題。
蟻群算法是一種仿生算法,以信息素作為啟發信息,在復雜的組合優化問題中得到廣泛應用,具有計算精度高、速度快、易于實現等特點,較早就被用于解決流水車間調度問題。在開放車間和作業車間混合場景下,Blum[25]將作業車間調度問題中的工序映射為對應的工序組,把蟻群算法與其他算法結合構建了混合算法。陳暄等[26]在蟻群算法中采用質量函數和收斂因子來保證信息素更新的有效性,結合蛙跳算法中交叉因子和變異因子來提高局部搜索效率。李燚等[27]設計了改進的蟻群算法,使用一種特定啟發式函數,并更改迭代過程中最優解的評價方法后將其用于求解汽車混流裝配調度問題。Engin等[28]提出一種基于交叉變異機制的混合蟻群算法求解無等待流水車間調度問題的最大完工時間。對于多階段混合車間調度問題,Qin等[29]提出了一種兩級進化蟻群算法,將原問題分解成兩個高度耦合子問題,實驗證明了該算法在計算時間和穩定性方面的優越性。
(3)粒子群算法求解車間生產調度問題。
粒子群算法源于對鳥群等動物群體行為規律的研究,具有典型的群體智能特性,粒子群算法提出以后在生產調度領域得到了廣泛的應用。Pan等[30]在完工時間和總流經時間等多目標的流水車間調度問題中,通過離散的粒子群算法和鄰域搜索算法有效提高了解的質量。Eddaly等[31]應用粒子群算法求解具有阻塞約束的流水車間調度問題。韓文民等[32]結合混合離散粒子群算法形成新的重調度決策方法,并用于解決重調度非線性整數規劃問題。李振等[33]通過在粒子的位置更新公式中加入創新因子,使之獲得了更好的探索能力,增強了種群在進化過程中的多樣性,提高了算法的全局搜索能力。顧文斌等[34]針對相同并行機混合流水車間調度問題,提出一種基于激素調節機制的改進粒子群算法,用于求解并行機混合流水車間調度問題,并驗證了所提算法的優越性。呂媛媛等[35]針對多目標混合多處理任務作業車間調度問題,以最小化最大完工時間和最小化總拖延時間為目標建立雙目標問題模型,提出一種新的改進多目標粒子群算法對其求解。該算法以IPOX交叉和多輪變異策略更新粒子,根據動態鄰域思想設計新的外部種群尋優機制尋找每一代較優解,結合個體擁擠距離刪減并維護外部種群。結果表明,該算法在選取鄰域粒子數量為2時求解效果最好,并且通過與NSGA-Ⅱ算法進行對比,驗證了算法的有效性。
(4)其他元啟發式算法求解車間生產調度問題。
袁帥鵬等[36、37]針對兩階段流水車間成組調度問題,在同時考慮序列不相關準備時間和階段間雙向運輸時間約束的情況下,以最小化最大完工時間為目標建立了混合整數線性規劃模型,結合問題特征提出一種協同進化迭代貪婪算法。算法將工件組之間排序和各工件組內部的工件排序兩個子問題進行統一編碼,設計了不同的啟發式規則產生問題的初始解,并提出一種協同導向迭代貪婪規則對兩個子問題進行聯合優化,進而給出了問題的三個下界以評估算法的性能。通過不同規模的數據實驗和與對比算法的比較分析,驗證了所提算法的高效性和穩健性。張源等[38]針對混合流水車間調度問題,以最小化最大完工時間為目標函數建立了仿真優化模型,并提出了一種改進差分進化算法進行求解,將算法結合反向學習策略生成初始種群,在差分進化中進一步引入自適應差分因子,并在個體選擇機制中引入模擬退火算法的Metropolis準則,有效提高了該算法的全局搜索能力。黎陽等[39]為解決大規模(工件數>100)置換流水車間調度問題,提出一種改進的模擬退火算法,改進了初始退火溫度的設置,給出相應的計算函數;采用基于概率的多策略協同搜索生成新解,并引入并行搜索和記憶功能概念,以提升大規模問題下解的質量,以及把發動機連桿部件實際制造車間等作為數值和工程案例,對算法進行了性能驗證,表明了所提方法的有效性。
(5)神經網絡和深度學習求解車間生產調度問題。
深度學習源于人工神經網絡,其模型通常由多層非線性運算單元組合而成,將原始樣本數據作為輸入,將低層的輸出作為更高一層的輸入來學習數據的抽象特征。深度學習通過監督學習或非監督學習的方式進行訓練,其中監督學習是通過外部帶標注的訓練集進行學習,而非監督學習是通過訓練來尋找未標注數據中的隱含結構。本書的深度學習特指通過非線性神經網絡進行函數或曲面的逼近,以端到端的方式進行特征學習,取代了手工標注特征的傳統方法,通過多層神經網絡來識別數據間的關系,學習到的特征具有更強的泛化能力;同時,為了能夠充分利用相關先驗知識,提升深度學習對中間特征層的高層語義表達能力,將深度學習方法與知識引導模型進行結合,可以構建更加有效的深度學習機制[40]。
2016年3月,DeepMind公司研發的以深度學習等技術為核心的圍棋程序AlphaGo以4∶1的成績戰勝圍棋世界冠軍李世石[41];2017年5月,圍棋程序AlphaGo Master以3∶0的成績戰勝世界圍棋冠軍柯潔。在16萬個圍棋棋譜基礎上,它通過學習獲得的圍棋能力已超過人類職業圍棋頂尖水平。此后,DeepMind公司發布以強化學習為核心技術的新圍棋程序AlphaGo Zero[42],在給定規則的情況下,不依靠人類棋譜,僅通過強化學習等技術進行自我對弈學習,自主學會圍棋中的高級概念和博弈技巧,經過3天的訓練,以100∶0的成績戰勝AlphaGo版本;經過40天的訓練,成功擊敗了AlphaGo Master版本。
2006年,Hinton等[43]提出先通過非監督學習方式對網絡進行逐層貪婪預訓練,再通過監督學習方式對整個網絡進行微調的基本訓練原則,這種新穎的方法在很大程度上降低了神經網絡的優化難度。Azadeh等[44]提出一種離散事件模擬與人工神經網絡相結合的元模型,利用神經網絡的反向傳播機制成功求解調度問題的最大完工時間。有學者利用神經網絡對現有基準問題最優解提取特征知識,再通過訓練好的神經網絡對新的調度問題預測序列位置信息,經驗證對更大規模的調度問題同樣有效[45、46]。Sim等[47]將神經網絡用于調度規則實時選擇,根據當前系統狀態和車間工況參數選擇最合適的調度規則,通過仿真優化確定了神經網絡參數,結果表明神經網絡能夠動態選擇有效的調度規則。Adibi等[48]在事件驅動的策略重新調度問題中,由可變鄰域搜索響應動態事件觸發,將目標函數作為多目標績效測度來訓練神經網絡,再利用訓練好的人工神經網絡更新變鄰域搜索參數,也得到了令人滿意的結果。Zhou等[49]結合深度學習提出一種工件調度系統,使用一種簡單的貪婪機制定期對全部工件完成調度排序。
(6)強化學習算法求解車間生產調度問題。
強化學習通過與環境交互獲得反饋信號,其目的是最大化獎勵信號。因此,一般將強化學習理解為監督學習和非監督學習之外的第三種機器學習方式。需要在學習過程中權衡“探索”和“開發”之間的關系,智能體根據信號采取相應的動作,在交互中逐步改進策略,以獲得最大的累積獎勵。
強化學習通過馬爾可夫決策過程對序貫決策問題進行建模,通過與環境不斷交互試錯來實現狀態到動作的映射[50]。Zhang等[51]利用平均獎勵強化學習方法求解平行機調度問題。Gabel等[52]將作業車間調度問題理解為順序決策問題,提出了一種使用少量實值參數的調度表示方法,使用策略梯度強化學習來調整算法參數以提高策略的性能。崔建雙等[53]提出了一種基于Q-learning的超啟發式模型求解多模式資源約束項目調度問題,結果表明算法在目標值、通用性、魯棒性等多項性能指標上均表現優異。Aydin等[54]根據模擬環境的實際情況,實時選擇最合適的優先級規則,通過改進的強化學習算法對智能體進行訓練,使其在學習階段中作出調度決策。潘燕春等[55]將強化學習算法與其他算法結合用于解決生產調度問題,針對流水車間調度問題設計了一種遺傳強化學習算法,引入狀態變量和行動變量,把組合優化的排序問題轉換成序貫決策問題加以解決。Cunha等[56]提出一種基于機器學習的作業車間調度問題新方法,通過創建一個新的體系結構,將強化學習整合到調度系統中,以強化學習代理解決作業車間調度問題,實驗證明了算法可以在極短的時間內高質量地解決任何問題,并接近于最優方法。賀俊杰等[57]針對等效并行機在線調度問題,以加權完工時間和為目標,提出了一種基于長短期記憶近端策略優化強化學習的在線調度方法。作者通過設計融合LSTM的智能體記錄車間的歷史狀態變化和調度策略,進而根據狀態信息進行在線調度。
動態調度問題是一類更復雜的生產調度問題,Aissani等[58]提出一種多智能體的動態調度方法用于石油工業,并取得了很好的實驗結果。趙也踐等[59]提出了一種基于改進Q-learning算法和調度規則的動態調度算法,以“剩余任務緊迫程度”的概念來描述動態調度算法的狀態空間;設計了以“松弛越高,懲罰越高”為宗旨的回報函數,通過引入以Softmax函數為主體的動作選擇策略來改進傳統的Q-learning算法,調度結果明顯優于使用單一調度規則以及傳統優化算法等常規方法。陳勇等[60]針對大型裝備制造企業擾動多、影響大的問題,以元胞機模型為框架構建了多擾動車間生產調度模型,設計了基于設備平均利用率與工件平均流程時間雙目標最優的目標函數,采用強化學習算法優化了元胞機的自組織演化規則,建立了基于元胞機與強化學習算法的多擾動車間柔性調度模型,并通過仿真求解驗證了算法與模型的有效性與可靠性。Shahrabi等[61]針對動態調度問題,考慮隨機工件到達和機器故障等因素,采用強化學習算法來選擇重調度的參數,并將參數質量作為強化學習的獎勵函數,通過與普通變鄰域搜索算法進行對比,實驗證明所提方法的有效性。韓忻辰等[62]構建了以各列車在各車站延誤時間總和最小為目標函數的高速鐵路列車動態調度模式,在此基礎上設計了用于與智能體交互的仿性環境,采用Q-learning算法進行求解。最后,通過實例驗證了仿性環境的合理性以及Q-learning算法用于高鐵動態調度的有效性,為高鐵調度員作出優化決策提供了良好的依據。尹愛軍等[63]提出一種基于強化學習的改進NSGA-Ⅱ算法,利用強化學習動態優化種群迭代過程中的拆分比例參數以保持多樣性,改善算法收斂性能。最后,通過Kacem標準算例進行了仿真實驗與性能分析,驗證了算法的有效性與優越性。
多智能體強化學習在調度優化問題中也得到了成功的應用。Gronauer等[64]綜述了當前多智能體深度強化學習領域的研究進展,列舉了多智能體領域獨有的挑戰,回顧了用來應對這些挑戰的方法,討論了進展和可能的發展方向。Lee等[65]基于單智能體強化學習案例中的實證提出了一種預處理增強的多智能體強化學習算法,使用行為克隆的方式作為預處理神經網絡手段,通過求解模型來驗證所提方法的有效性,三種場景的實驗結果表明,所提出的方法是可行的解決方法,在求解質量和計算時間方面具有一定的優越性。Kim等[66]提出了一個使用多智能體系統和強化學習的智能制造系統,其特點是具有智能體的機器使系統具有決策自主權,與其他系統交互的社交性,以及智能學習動態變化的環境。在該系統中,具有智能代理功能的機器對作業的優先級進行評估,并通過協商進行分配。通過比較提前完工、生產率和延遲調度問題的結果,驗證了該系統和調度規則的性能。結果表明分布式人工智能制造系統在動態環境下具有競爭力。
多目標優化調度問題是當前優化調度學科的另一個熱點研究方向,袁景凌等[67]針對異構云環境多目標優化調度問題,設計了一種AHP定權的多目標強化學習作業調度方法。首先定義了執行時間、平臺運行能耗、成本等多個目標,其中定義服務延遲成本用來描述用戶對服務質量的滿意程度。其次設計了面向異構資源的多目標調度綜合評價方法,該方法利用層次分析法確定了各個目標的權重。最后將該方法引入Q-learning的獎勵值計算,使其能反映異構云環境下作業的總體執行情況,并對后續抵達的作業起到良好的經驗借鑒作用。實驗結果表明本書提出的方法優于大部分對比方法,能較好地優化作業執行效率和保障用戶及服務提供商的利益。
(7)深度強化學習算法求解車間生產調度問題。
深度強化學習將深度學習的感知能力和強化學習的決策能力結合起來,為解決復雜的決策問題提供了方法。在圍棋、機器人等領域的矚目成果顯示了其強大的學習能力與序貫決策能力。鑒于此,近年來涌現出了多個利用深度強化學習方法解決組合優化問題的新方法,具有求解速度快、模型泛化能力強的優勢,為組合優化問題的求解提供了一種全新的思路[68]。較典型的深度強化學習技術框架有深度Q網絡(Deep Q-Network,DQN)[69],其核心思想是利用深度神經網絡計算動作值函數,使DQN具有穩定的學習結構。此外,在DQN網絡基礎上,還有一系列成功的應用,如Prioritized Experience Replay[70]、Double DQN[71]和Dueling Network[72]等。
深度強化學習以通用的形式將深度學習的感知能力與強化學習的決策能力相結合,并通過端對端的學習方式實現從原始輸入到輸出的直接控制[73]。針對Q值在一定條件下容易震蕩和過估計的問題,Chen等[74]提出了一種基于價值函數逼近的深度強化學習集成網絡結構,通過降低目標方差來穩定訓練過程,從而提高訓練效果。黎聲益等[75]提出了一種面向設備負荷穩定的智能車間調度方法,通過一個含有深度神經網絡調度模型的調度智能體,分析車間生產狀態與設備負荷間的相關性,及時輸出滿足期望目標的調度方案。其所提出的方法在MiniFab半導體生產車間模型中進行了驗證,實驗驗證了其所提出的調度方法能實現對智能車間設備負荷的控制。Elfwing等[76]通過深度強化學習在雅達利2600游戲中獲得了人類水平的表現,且表明策略學習方法是取得成功的關鍵因素。Adamski等[77]對分布式深度強化學習進行了研究,提出了一種可擴展的深度強化學習算法,針對多產品單服務器調度問題構建動態控制策略,以在制品庫存和缺貨懲罰成本等因素中優化成本函數,得到了合理的動態調度策略。Hubbs等[78]在化工生產調度中,將深度強化學習用于在線動態調度,通過強化學習系統實現調度系統的實時優化。Wang等[79]在動態資源調度中,通過深度強化學習實現了一種新的動態調度方案,以提高自動、高效的優化和端到端服務的可靠性。Shahmardan等[80]基于深度強化學習框架研究了車輛調度問題,將問題構建為一個混合整數規劃模型并加以解決。劉冠男等[81]針對救護車動態重定位調度問題,提出了一種基于強化學習的調度策略結構,基于深度Q值網絡方法提出了一種考慮多種調度交互因子的算法RedCon-DQN,以在給定環境狀態下得到最優的重定位調度策略,最后在模擬器中通過大規模數據實驗,驗證了模型得到的調度策略相比已有方法的優越性,并分析了在不同時段下調度策略的有效性及其特點。Shi等[82]提出了一種基于深度強化學習的智能調度算法求解自動化生產線的調度問題。崔鵬浩等[83]針對機器劣化過程的多機流水線,基于馬爾可夫鏈構建了流水線瞬態性能評估模型,綜合考慮在制品庫存成本、缺貨懲罰成本和預測性維護成本,以最小化系統總成本為目標,基于馬爾可夫決策過程建立了流水線預測性維護決策優化模型,利用深度強化學習算法對問題進行了近似求解,獲得了有效的流水線預測性維護策略。Cals等[84]提出了將深度強化學習方法用于決定如何確定訂單的處理順序,以最小化延遲訂單的數量,創建了一個深度強化學習解決方案,通過與環境交互學習策略,并通過一個近端策略優化算法解決問題。結果表明,深度強化學習方法可以開發出良好的解決方案,并且在大多數測試案例中比所提出的啟發式算法性能更好。
2.啟發式調度規則研究現狀
研究啟發式調度規則對構建調度算法具有重要意義,Baker等[85]較早進行了啟發式規則的相關研究,并分析了不同情況下調度規則對調度結果的影響。Gere[86]對調度規則、分配規則、優先規則等進行了定義,明確了這些概念的區別與聯系。Ren等[87]對啟發式規則的內涵和分類進行了系統的研究,從三個不同方面詳細分析了啟發式規則在生產調度問題中的應用。王家廞[88]提出了一種新的啟發式調度規則,在以拖期時間為評價目標的問題中,該規則優于簡單的調度規則。針對敏捷制造調度環境的不確定性、動態性以及混合流水車間調度問題的特點,王芊博等[89]提出一種針對混合流水車間環境的插值排序算法。范華麗等[90]以最小化工件平均加權拖期為調度目標,考慮了加工準備時間的動態作業車間調度問題,用基于遺傳規劃的方法設計了用于問題求解的調度規則。王成龍等[91]針對復雜大規模動態調度問題提出基于調度規則的求解方法,實驗證明了算法的有效性。朱偉[92]、王芳等[93]針對柔性作業車間調度問題,將優先級調度規則和其他算法結合,形成了針對柔性作業車間的調度規則組合。
綜合國內外文獻可見,智能算法在求解車間生產調度問題中取得了豐碩的研究成果,在調度方案質量和時間效率等方面有很大的優越性。但同時也存在不足之處,比如為了降低求解難度,問題求解中過多的假設使得問題模型與實際的生產環境存在較大差異;數據之間的關鍵特征及其相互約束關系難以識別和提取,模型未能真正反映調度問題的真實特征。另外,不同智能算法蘊含了不同自然機理,所用知識差別較大,算法的應用范圍較小,甚至在同類問題中由于問題規?;騾档牟煌?,解的質量也存在非常大的差異。由以上元啟發式方法對車間生產調度或其他類似問題的求解可見:所求解的問題需要建立有效的數學模型,而實際應用中問題的約束因素非常多,只能根據經驗選擇若干約束因素進行建模,實際上是對問題的一種理想化處理方式,如果考慮更多的約束因素,又會導致問題過于復雜而無法建立模型,這種簡化處理方式導致所得到的解決方案只能是問題的近優方案;當要處理的問題規模較大時,計算時間復雜度和空間復雜度呈指數級增長,有時甚至難以收斂;應對動態因素的能力較差,在出現緊急插單、機器故障、客戶需求變更等動態因素時,對算法的設計改進方面工作量極大,同時處理結果難以滿足實際需求;對分布式調度問題處理能力較差,缺乏成熟的分布式調度問題的模式和思路,調度結果難以滿足需要。
因此,還需要結合實際應用,深入挖掘相關領域知識,實現自動識別生產任務的數據特征關系,以達到自主學習和決策的目的。通過深度學習、強化學習和深度強化學習在生產調度中的成功應用可以發現,深度神經網絡具有強大的識別感知能力,通過學習工業數據,可以自動識別生產任務和調度方案之間的對應關系,無須人為提取任務特征,使算法具備解決不同類型的生產調度問題的能力。同時,利用強化學習的決策能力,將生產任務作為特殊的序貫決策問題,結合深度學習的感知能力,可以進一步提高算法的性能,擴大應用領域。
通過梳理分析強化學習或深度強化學習解決生產調度問題的成果可以發現,此類方法和元啟發式方法相比具有以下優勢:強化學習通過智能體與環境進行交互學習得到最優策略,減少了對組合優化問題建模的依賴程度;強化學習方法采用值函數逼近或直接策略搜索的相關算法,可以有效應對問題的高維度困境;強化學習在與環境交互中學習最優策略,可以敏感捕捉到環境的動態因素,具有天然的應對緊急插單、機器故障等動態隨機因素的能力;強化學習在與環境交互時可以在線生成并存儲樣本,因此在不確定環境下處理序列決策問題時對線下樣本的依賴程度較低;強化學習具備應對復雜環境的泛化能力,具有更好的適應性和通用性。
可見強化學習在處理序貫決策問題時具有明顯的優勢,但同時也存在一些問題和困難:強化學習算法的數學理論基礎不完善,部分核心算法步驟缺乏嚴格的數學推理證明;強化學習序列決策中易出現不穩定性、獎勵值的稀疏性、離散狀態的稀疏性、高維空間中動作的稀疏性,這些因素導致算法容易陷入局部最優,甚至難以收斂;強化學習在求解車間生產調度問題時,算法框架中的狀態、獎勵值、動作等較難定義,缺少成熟的定義標準,過于依賴專家經驗,不當的狀態、獎勵值、動作定義導致解的質量不穩定,甚至會導致問題求解失敗;復雜的多智能體強化學習或分層強化學習在組合優化領域的應用還處于初步探索階段,現有成果較少。
通過對強化學習求解車間生產調度等組合優化問題的優點和存在問題的分析,立足幾種典型的車間生產調度問題,可采用深度強化學習和其他相關算法進行求解:提升馬爾可夫決策模型的精準程度,使之更加符合車間生產調度問題的實際情況,具備更好的通用性;探索車間生產調度問題的強化學習算法動作、獎勵值、動作等要素的定義方式,降低主觀因素的不利影響;基于深度強化學習求解車間生產調度問題,以深度學習、強化學習和深度強化學習等新一代人工智能技術為主,但同時充分利用其他算法的優點,通過成熟的元啟發式算法來提高深度強化學習等算法的有效性,彌補其不足;對多智能體強化學習在車間生產調度問題中的應用展開初步探索,在馬爾可夫博弈框架下,研究分布式生產調度問題的多智能體強化學習解決方法,考慮智能體的回報函數彼此之間的相互關聯性,引入NASH均衡概念并將多智能體學習收斂到均衡點。
- 輕松學C語言
- Getting Started with Oracle SOA B2B Integration:A Hands-On Tutorial
- Hands-On Machine Learning on Google Cloud Platform
- Photoshop CS4經典380例
- Mastering Salesforce CRM Administration
- 大數據平臺異常檢測分析系統的若干關鍵技術研究
- 基于多目標決策的數據挖掘方法評估與應用
- 系統安裝與重裝
- 傳感器與新聞
- Containers in OpenStack
- R Machine Learning Projects
- PLC與變頻技術應用
- 青少年VEX IQ機器人實訓課程(初級)
- Data Analysis with R(Second Edition)
- 玩轉PowerPoint