官术网_书友最值得收藏!

3.1?概述

現(xiàn)代工業(yè)技術(shù)的發(fā)展使得制造過程、工藝、設(shè)備裝置趨于復(fù)雜,已經(jīng)很難通過機(jī)理模型這一傳統(tǒng)建模方法為系統(tǒng)精確建模從而優(yōu)化系統(tǒng)運(yùn)作性能。例如對(duì)于硅片加工生產(chǎn)線[1],雖然運(yùn)用了先進(jìn)的調(diào)度思想,精心設(shè)計(jì)了調(diào)度算法并加以實(shí)現(xiàn),但得到的仿真結(jié)果精度較差,難以指導(dǎo)實(shí)際的調(diào)度排程任務(wù)。而隨著企業(yè)信息化程度的提高,制造型企業(yè)數(shù)據(jù)的實(shí)時(shí)性、精確性有顯著提升,從而促進(jìn)了基于數(shù)據(jù)的方法在過程控制[2]、在線監(jiān)控與故障診斷[3]、調(diào)度優(yōu)化[4]和管理決策等方面[5]的應(yīng)用。尤其是在鋼鐵冶金領(lǐng)域,由于其關(guān)鍵性能指標(biāo)無法由機(jī)理模型描述或在線監(jiān)控檢測(cè),基于數(shù)據(jù)的預(yù)測(cè)方法得到了廣泛的應(yīng)用[6?8]。基于數(shù)據(jù)的調(diào)度方法側(cè)重將數(shù)據(jù)驅(qū)動(dòng)的方法和傳統(tǒng)調(diào)度建模優(yōu)化方法相結(jié)合來求解調(diào)度問題,本節(jié)將從復(fù)雜制造數(shù)據(jù)屬性選擇、復(fù)雜制造數(shù)據(jù)聚類以及復(fù)雜制造數(shù)據(jù)屬性離散化三個(gè)方面進(jìn)行闡述。

(1)復(fù)雜制造數(shù)據(jù)屬性選擇

條件屬性冗余過多會(huì)導(dǎo)致分類或回歸的精度下降,使生成的規(guī)則無法使用,規(guī)則之間的沖突亦較多。屬性選擇則是從條件屬性中選取較為重要的屬性。屬性選擇常用的方法包括粗糙集和計(jì)算智能。例如,Kusiak[9?11]針對(duì)半導(dǎo)體制造的質(zhì)量問題,提出了基于粗糙集從樣本數(shù)據(jù)中獲取規(guī)則的方法,并應(yīng)用特征轉(zhuǎn)換和數(shù)據(jù)集分解技術(shù),來提高缺陷預(yù)測(cè)的精度和效率;粗糙集的屬性約簡(jiǎn)是一個(gè)NP難問題,Chen[12]等通過特征核的概念縮減了搜索空間,然后使用蟻群算法求得了屬性集的約簡(jiǎn),提高了知識(shí)約簡(jiǎn)的效率;Shiue[13?17]等建立了兩階段決策樹自適應(yīng)調(diào)度系統(tǒng),將基于神經(jīng)網(wǎng)絡(luò)的權(quán)重特征選擇算法和遺傳算法用于調(diào)度屬性選擇,使用自組織映射(Self?Organizing Maps,SOM)進(jìn)行數(shù)據(jù)聚類,應(yīng)用決策樹、神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)三種學(xué)習(xí)算法對(duì)每個(gè)簇進(jìn)行學(xué)習(xí)實(shí)現(xiàn)參數(shù)優(yōu)化,提高了自適應(yīng)調(diào)度知識(shí)庫的泛化能力,并通過仿真驗(yàn)證了成果的有效性。

(2)復(fù)雜制造數(shù)據(jù)聚類

聚類是對(duì)樣本數(shù)據(jù)按彼此之間的相似度進(jìn)行分類的技術(shù),使相似的樣本屬于同一類,而相似度低的樣本屬于不同的類。由于噪聲數(shù)據(jù)會(huì)影響學(xué)習(xí)的精度,如C4.5在處理含有噪聲的樣本時(shí)會(huì)導(dǎo)致生成樹的規(guī)模龐大,降低預(yù)測(cè)精度,需要做剪枝處理,因此對(duì)于大規(guī)模訓(xùn)練樣本,可以使用聚類平滑噪聲數(shù)據(jù)。聚類中常用的方法包括SOM、Fuzzy?C均值、K均值和神經(jīng)網(wǎng)絡(luò)等。例如,Hu[18]使用層次聚類的方法找出與成品率下降相關(guān)的設(shè)備;Chen[19?20]等使用Fuzzy?C均值、K均值等算法對(duì)訓(xùn)練樣本進(jìn)行聚類,然后對(duì)每個(gè)聚類訓(xùn)練神經(jīng)網(wǎng)絡(luò),提升工件加工周期的預(yù)測(cè)精度。

(3)復(fù)雜制造數(shù)據(jù)屬性離散化

部分算法和模型只能處理離散數(shù)據(jù),如決策樹、粗糙集等,因此有必要采用屬性離散化技術(shù)將連續(xù)屬性值轉(zhuǎn)化為離散屬性值。例如,Koonce[21]和Li[22]在挖掘優(yōu)化調(diào)度方案時(shí),根據(jù)面向?qū)傩砸?guī)約算法和決策樹的特點(diǎn),對(duì)屬性值進(jìn)行了等距離散劃分;Rafinejad[23]提出了基于模糊K均值算法的屬性離散化方法,使得從優(yōu)化調(diào)度方案中所提取的規(guī)則能夠更好地逼近優(yōu)化調(diào)度方案。

現(xiàn)有的復(fù)雜制造預(yù)處理技術(shù)主要集中于屬性選擇和數(shù)據(jù)聚類,而針對(duì)制造系統(tǒng)數(shù)據(jù)具有規(guī)模大、含噪聲、樣本分布復(fù)雜且存在缺失現(xiàn)象,輸入變量數(shù)目多、類型多樣,輸入/輸出變量間關(guān)系呈非線性、強(qiáng)耦合等特點(diǎn)的數(shù)據(jù)預(yù)處理技術(shù)還有待進(jìn)一步深入研究。本章將針對(duì)含噪聲、高冗余的生產(chǎn)調(diào)度數(shù)據(jù),對(duì)應(yīng)數(shù)據(jù)預(yù)處理任務(wù)提煉出數(shù)據(jù)規(guī)范化、缺失值填補(bǔ)、異常值檢測(cè)、冗余變量檢測(cè)等問題,如表3?1所示,并給出這些問題的求解方法,如圖3?1所示。這些方法屬于DSACMS中DataProcAnalyModule中的PreProcData。

表3?1 制造系統(tǒng)數(shù)據(jù)預(yù)處理任務(wù)

圖3?1 制造系統(tǒng)數(shù)據(jù)預(yù)處理技術(shù)路線

對(duì)于基于數(shù)據(jù)的調(diào)度預(yù)測(cè)建模問題(例如調(diào)度參數(shù)預(yù)測(cè)),首先需要從多個(gè)異構(gòu)數(shù)據(jù)源中獲取相關(guān)數(shù)據(jù),即在DSACMS的DataProcAnalyModule中定義的ETL。對(duì)象生產(chǎn)線的信息系統(tǒng)均采用關(guān)系數(shù)據(jù)庫存儲(chǔ)數(shù)據(jù),因此數(shù)據(jù)集成可以通過結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)實(shí)現(xiàn)。對(duì)于集成后的數(shù)據(jù),需要將其轉(zhuǎn)換為便于數(shù)據(jù)挖掘的形式。在下面的章節(jié)將分別介紹其中的方法。

本章將采用2個(gè)從實(shí)際制造信息系統(tǒng)采集的數(shù)據(jù)集驗(yàn)證上述方法。其中數(shù)據(jù)集D1是從FabSys的MES中采集的調(diào)度環(huán)境數(shù)據(jù),調(diào)度環(huán)境由Xse,fab中的變量描述,包括67個(gè)狀態(tài)屬性,包括2012年1月1日~2012年5月2日的542條樣本數(shù)據(jù)。D2是取自UCI(University of California Irvine)提供的機(jī)器學(xué)習(xí)公共測(cè)試數(shù)據(jù)集,數(shù)據(jù)集D2是從某半導(dǎo)體生產(chǎn)線的監(jiān)控系統(tǒng)采集的傳感器數(shù)據(jù),原始數(shù)據(jù)包括591個(gè)表示傳感器的屬性和2008年7月19日~2008年10月15日的1567條樣本數(shù)據(jù),進(jìn)行數(shù)據(jù)清理操作①~③后,D2中的數(shù)據(jù)包括440個(gè)傳感器和1561條樣本數(shù)據(jù)。

① 刪除無效傳感器:傳感器的值恒定,傳感器采集數(shù)據(jù)缺失值比率≥50%。

② 刪除空缺值較多的樣本數(shù)據(jù):樣本數(shù)據(jù)中≥30%的傳感器屬性值空缺。

③ 對(duì)剩余缺失值用傳感器均值進(jìn)行填補(bǔ)。?

為了方便討論,本文的數(shù)據(jù)集定義如下:數(shù)據(jù)集S是由M條記錄所組成的集合S=,其中,記錄xi描述一個(gè)特定對(duì)象,通常由N維屬性向量表示,xi=(xi1,xi2,…,xiN),其中每一維表示一個(gè)屬性,N表示屬性向量的維度。屬性是對(duì)象的抽象表示,從多元統(tǒng)計(jì)學(xué)的角度,第i個(gè)屬性對(duì)應(yīng)于(總體)隨機(jī)變量Xi,而數(shù)據(jù)集S是(總體)隨機(jī)向量X=(X1,X2,…,XN)的M個(gè)觀測(cè)值組成的樣本,這里所討論的變量均為連續(xù)型隨機(jī)變量。

主站蜘蛛池模板: 泸定县| 白玉县| 上杭县| 铜川市| 定安县| 肥城市| 西藏| 双辽市| 莫力| 广州市| 禄劝| 湖州市| 南溪县| 涞水县| 武穴市| 华宁县| 图片| 新乡县| 普安县| 遂昌县| 永福县| 峨山| 清新县| 上林县| 佛山市| 桐柏县| 永春县| 太和县| 沂水县| 长葛市| 沙河市| 车险| 北京市| 金昌市| 苍溪县| 会理县| 贵州省| 嘉荫县| 科技| 轮台县| 儋州市|