- 數據驅動的半導體制造系統調度
- 李莉 于青云 馬玉敏 喬非
- 2003字
- 2021-12-24 13:32:24
3.1?概述
現代工業技術的發展使得制造過程、工藝、設備裝置趨于復雜,已經很難通過機理模型這一傳統建模方法為系統精確建模從而優化系統運作性能。例如對于硅片加工生產線[1],雖然運用了先進的調度思想,精心設計了調度算法并加以實現,但得到的仿真結果精度較差,難以指導實際的調度排程任務。而隨著企業信息化程度的提高,制造型企業數據的實時性、精確性有顯著提升,從而促進了基于數據的方法在過程控制[2]、在線監控與故障診斷[3]、調度優化[4]和管理決策等方面[5]的應用。尤其是在鋼鐵冶金領域,由于其關鍵性能指標無法由機理模型描述或在線監控檢測,基于數據的預測方法得到了廣泛的應用[6?8]?;跀祿恼{度方法側重將數據驅動的方法和傳統調度建模優化方法相結合來求解調度問題,本節將從復雜制造數據屬性選擇、復雜制造數據聚類以及復雜制造數據屬性離散化三個方面進行闡述。
(1)復雜制造數據屬性選擇
條件屬性冗余過多會導致分類或回歸的精度下降,使生成的規則無法使用,規則之間的沖突亦較多。屬性選擇則是從條件屬性中選取較為重要的屬性。屬性選擇常用的方法包括粗糙集和計算智能。例如,Kusiak[9?11]針對半導體制造的質量問題,提出了基于粗糙集從樣本數據中獲取規則的方法,并應用特征轉換和數據集分解技術,來提高缺陷預測的精度和效率;粗糙集的屬性約簡是一個NP難問題,Chen[12]等通過特征核的概念縮減了搜索空間,然后使用蟻群算法求得了屬性集的約簡,提高了知識約簡的效率;Shiue[13?17]等建立了兩階段決策樹自適應調度系統,將基于神經網絡的權重特征選擇算法和遺傳算法用于調度屬性選擇,使用自組織映射(Self?Organizing Maps,SOM)進行數據聚類,應用決策樹、神經網絡及支持向量機三種學習算法對每個簇進行學習實現參數優化,提高了自適應調度知識庫的泛化能力,并通過仿真驗證了成果的有效性。
(2)復雜制造數據聚類
聚類是對樣本數據按彼此之間的相似度進行分類的技術,使相似的樣本屬于同一類,而相似度低的樣本屬于不同的類。由于噪聲數據會影響學習的精度,如C4.5在處理含有噪聲的樣本時會導致生成樹的規模龐大,降低預測精度,需要做剪枝處理,因此對于大規模訓練樣本,可以使用聚類平滑噪聲數據。聚類中常用的方法包括SOM、Fuzzy?C均值、K均值和神經網絡等。例如,Hu[18]使用層次聚類的方法找出與成品率下降相關的設備;Chen[19?20]等使用Fuzzy?C均值、K均值等算法對訓練樣本進行聚類,然后對每個聚類訓練神經網絡,提升工件加工周期的預測精度。
(3)復雜制造數據屬性離散化
部分算法和模型只能處理離散數據,如決策樹、粗糙集等,因此有必要采用屬性離散化技術將連續屬性值轉化為離散屬性值。例如,Koonce[21]和Li[22]在挖掘優化調度方案時,根據面向屬性規約算法和決策樹的特點,對屬性值進行了等距離散劃分;Rafinejad[23]提出了基于模糊K均值算法的屬性離散化方法,使得從優化調度方案中所提取的規則能夠更好地逼近優化調度方案。
現有的復雜制造預處理技術主要集中于屬性選擇和數據聚類,而針對制造系統數據具有規模大、含噪聲、樣本分布復雜且存在缺失現象,輸入變量數目多、類型多樣,輸入/輸出變量間關系呈非線性、強耦合等特點的數據預處理技術還有待進一步深入研究。本章將針對含噪聲、高冗余的生產調度數據,對應數據預處理任務提煉出數據規范化、缺失值填補、異常值檢測、冗余變量檢測等問題,如表3?1所示,并給出這些問題的求解方法,如圖3?1所示。這些方法屬于DSACMS中DataProcAnalyModule中的PreProcData。
表3?1 制造系統數據預處理任務


圖3?1 制造系統數據預處理技術路線
對于基于數據的調度預測建模問題(例如調度參數預測),首先需要從多個異構數據源中獲取相關數據,即在DSACMS的DataProcAnalyModule中定義的ETL。對象生產線的信息系統均采用關系數據庫存儲數據,因此數據集成可以通過結構化查詢語言(Structured Query Language,SQL)實現。對于集成后的數據,需要將其轉換為便于數據挖掘的形式。在下面的章節將分別介紹其中的方法。
本章將采用2個從實際制造信息系統采集的數據集驗證上述方法。其中數據集D1是從FabSys的MES中采集的調度環境數據,調度環境由Xse,fab中的變量描述,包括67個狀態屬性,包括2012年1月1日~2012年5月2日的542條樣本數據。D2是取自UCI(University of California Irvine)提供的機器學習公共測試數據集,數據集D2是從某半導體生產線的監控系統采集的傳感器數據,原始數據包括591個表示傳感器的屬性和2008年7月19日~2008年10月15日的1567條樣本數據,進行數據清理操作①~③后,D2中的數據包括440個傳感器和1561條樣本數據。
① 刪除無效傳感器:傳感器的值恒定,傳感器采集數據缺失值比率≥50%。
② 刪除空缺值較多的樣本數據:樣本數據中≥30%的傳感器屬性值空缺。
③ 對剩余缺失值用傳感器均值進行填補。?
為了方便討論,本文的數據集定義如下:數據集S是由M條記錄所組成的集合S=,其中,記錄xi描述一個特定對象,通常由N維屬性向量表示,xi=(xi1,xi2,…,xiN),其中每一維表示一個屬性,N表示屬性向量的維度。屬性是對象的抽象表示,從多元統計學的角度,第i個屬性對應于(總體)隨機變量Xi,而數據集S是(總體)隨機向量X=(X1,X2,…,XN)的M個觀測值組成的樣本,這里所討論的變量均為連續型隨機變量。