2.5.3 一種多分類器融合模型
模式識別和分類是決策層融合最重要的應用領域之一。多分類器系統通常是解決困難模式識別任務的實用且有效的解決方案,可以稱為分類器融合、決策組合、專家混合、分類器集合、共識集合、動態分類器選擇、混合方法等。
分類數據融合是一個涉及多個領域的多學科領域,難以建立清晰嚴密的分類。所采用的方法和技術可以根據以下標準劃分[27]:①關注由Durrant-Whyte提出的輸入數據源之間的關系,這些關系可以定義為互補、冗余或合作數據;②根據Dasarathy提出的輸入/輸出數據類型及其性質;③所采用數據的抽象級別原始測量、信號和特征或決策;④根據JDL定義的不同數據融合等級。
將分類器合并到冗余集合中的主要目的是提高其泛化能力。集合內部的固有冗余也可以防止單個分類器的失敗。可能期望分類器在某些輸入上失敗的原因是基于它們只在有限的數據集上進行了訓練,根據訓練數據估計目標函數,除非函數是簡單的,或者訓練集是數據的完美代表,數據規律可以實現完美的泛化,否則估計和期望目標會不同。
在集合中組合分類器的方法一旦創建了一組分類器,就必須找到一個合并輸出的有效方法。當前已經提出了多種方案來組合多個分類器。大多數票是迄今為止最流行的方法,其他投票計劃包括最小值、最大值、中值、平均值和產品方案。加權平均法試圖評估所使用的各種分類器的最佳權重。行為知識空間(Behaviour Knowledge Space,BKS)在輸入空間的某個區域選擇最好的分類器,并根據其輸出決策。其他與分類相結合的方法包括基于等級的方法,例如博爾達計數、貝葉斯方法、D-S證據理論、模糊理論、概率方案,并結合神經網絡。可以將組合器視為一種方案來為分類器分配有價值的權重。
圖2.27給出了一種實現基于馬爾可夫預測模型、樸素貝葉斯訓練模型和神經網絡預測模型的多分類器融合預測模型。貝葉斯分類模型的關鍵就是求出每個故障類概率以及該故障類下各特征屬性的條件概率,分類訓練問題就轉化為統計樣本中各故障類的計數及該類下各故障特征屬性的計數。樸素貝葉斯訓練模型基于彈性分布式數據集編程模型的樸素貝葉斯(Resilient Distributed Datasets based Naive Bayes Model,RDD-NB)算法實現,神經網絡預測模型通過反向傳播神經網絡(Resilient Distributed Datasets based Back Propagation Neural Network,RDD-BPNN)算法實現。

圖2.27 基于馬爾可夫預測模型、樸素貝葉斯訓練模型和神經網絡預測模型的多分類器融合預測模型
貝葉斯定理是一條關于隨機事件A和B條件概率的定理(假設事件A和事件B不相關),它的表達形式為:

式中,P(A)為事件A的先驗概率;P(B)為事件B的先驗概率;P(A/B)為當事件B發生后事件A再發生的條件概率;P(B/A)為當事件A發生后,事件B再發生的條件概率。知道了貝葉斯定理,采用樸素貝葉斯對設備故障數據進行分類。
設x={a1,a2,…,an}是一條待診斷的故障記錄,ai是一個故障特征屬性。已知故障類別集合C={c1,c2,…,cn},ci是一個故障類。x屬于各故障類的概率分別為P(c1|x),P(c2|x),…,P(cm|x),取其中最大值為x所屬故障類,則:

則x的故障類別是ck。如果特征屬性是條件獨立的,那么根據貝葉斯定理可知:

對于某個x,P(x)是固定的,P(x|ck)P(ck)是最大的那個k即為x所屬的故障類別。因此有:

BP神經網絡是目前研究和應用最廣泛和最成熟的神經網絡,項目通過設計三層神經網絡模型,實現BP神經網絡算法的并行化設計。定義誤差Ep=0.5∑(T pi-Y pi)2,其中Y pi為輸出節點的計算輸出,T pi為對應的真實輸出,激活函數為Sigmoid函數,權值修正為:

式中,h為學習因子;φi為輸出節點i的計算誤差;Yj為輸出節點j的計算輸出;α為動量因子。設置時間窗口為3,下一時刻的故障特征值作為輸出屬性。
算法的并行化學習步驟概括如下。
①隨機生成各個節點間的連接初始權值與隱含層和輸出層節點的閾值,根據多次實驗本書設置在(-2,2)之間。設定訓練次數和誤差閾值。
②重復下面兩個過程直至收斂或者到了最大訓練次數。
a.正向學習過程:針對每個樣例從輸入層開始正向學習,計算隱含層的輸入和輸出,求得輸出層的實際輸出。通過與期望輸出比較計算出誤差和總誤差,若總誤差滿足要求,則跳出循環,否則進行下一步。
b.反向傳播誤差過程:根據上一步得到的誤差來計算并調整權值和偏置矩陣的值。