4155mg娱乐

書名： Visual C++數字圖像模式識別典型案例詳解
作者名：馮偉興梁洪王臣業編著
本章字數： 3367字
更新時間： 2018-12-31 19:38:55

2.1.1 特征的提取與選擇

特征選擇與提取的目的是獲取一組“少而精”的分類特征，它是模式識別中的關鍵問題之一，同時也是最困難的問題。

確定合適的特征空間是設計模式識別系統的關鍵問題之一。如果所選用的特征空間能使同類物體分布具有緊致性，將為分類器設計提供良好的基礎；反之，如果不同類別的樣本在特征空間中混雜在一起，再好的分類器設計方法也無法提高分類器的準確性。利用信息獲取裝置產生的模式（已經經過了適當的預處理）往往含有的數據量很大，或者說模式處于一個高維的模式空間中。從模式空間向特征空間的轉換有兩種方法：一種是特征提取，通過某種映射改造原特征空間，構造一個有較好緊致性的精簡的特征空間；另一種是特征選擇，從一組特征中挑選出一些最有效的特征，以達到降低特征空間維數的目的。

本節將在特征評判標準的基礎上，介紹兩種常用的特征選擇和提取的方法：分支界定法和基于K-L變換的特征提取法。

1.特征評判標準——類別可分性判據

特征評判標準主要是衡量類別間的可分性，顯然，能使分類器錯誤概率最小的特征就是最好的特征。從理論上講這是正確的，但在實際應用中存在很大困難。因此，通常需要采用一些更實用的、更具有可操作性的評判標準，這些標準應滿足以下幾點：

·與錯誤概率有單調關系，這樣可以保證使準則取極值時其分類錯誤概率也較小。

·具有度量特性，即滿足：

式中，Jij是用于衡量類ωi和類ωj的準則函數。

·具有單調性，當加入新特征時，判據不減少，即

特征獨立時，滿足可加性，即

在特征提取中常用的特征評價標準有基于分類誤差的可分性判據、基于概率距離度量的可分性判據、基于概率依賴度量的可分性判據、基于熵度量的概率可分性判據和基于距離的可分性判據。

基于距離的可分性判據直接依靠樣本計算，直觀簡潔，物理概念清晰，應用最為廣泛。基于距離的可分性判據的出發點是各類樣本之間的距離越大、類內聚度越小，則類別的可分性越好。直觀上，各類樣本之間的距離越大，則類別可分性越大。因此，可以用各類樣本之間的距離平均值作為可分性準則。用δ(ξik,ξjl)表示第i類中第k個模式和第 j類中第l個模式間距離的度量值，平均距離可定義為：

式中，C表示類別數；如果距離度量δ采用歐幾里得距離，則有：

考慮到式（2-4）的計算比較復雜，可將其轉化為相應的矩陣來度量和處理。

第i類類內散布矩陣：

總體類內散布矩陣：

總體類間散布矩陣：

總體散布矩陣：

存在關系：

上面各式中，為第i類均值向量；，為樣本集的均值向量；為第i類協方差為樣本總的協方差。

類內散布矩陣表征各樣本點圍繞它均值的散布情況，類間散布均值表征各類間的距離分布情況，它們依賴于樣本類別屬性和劃分。而總體散布矩陣與樣本劃分及類別屬性無關。

構造準則有跡和行列式兩種方法，兩種方法的示例分別如下。

跡準則：

行列式準則：

表2-1所示為以類內散布矩陣SW、類間散布矩陣SB和總體散布矩陣ST為基礎的一些準則和它們的意義。

表2-1 基于散布矩陣的準則函數

2.特征選擇及分支界定法

特征選擇實質上就是從D個特征中選出d（d<D）個最有效的特征。顯然，要得到最有效的特征，必須依據前述的可分性準則，采用一定的算法才能實現。有兩個極端的特征選擇算法，一個是單獨選擇法，另一個是窮舉選擇法。

單獨選擇法就是把D個特征中的每一個特征單獨使用時的可分性準則函數值算出來，然后按準則函數值從大到小排序，取使準則函數較大的前d個特征作為選擇的結果。這種方法看起來很簡單，但是其得到的特征組不能保證是最佳特征組，即使是所有的特征都相互獨立，也無法保證所選出的是最佳特征組。

窮舉法就是將從D個特征取出d個特征的組合對應的可分性準則函數值都計算出來，然后看哪種組合的準則函數值最大，就選中該種組合作為最佳特征。顯然這種方法能夠得到所期望的最佳特征組，但是，當特征數過多時，該方法計算量太大，以致無法實現。

除了以上兩個極端選擇算法外，還有一種非極端算法——分支界定算法，其是一種自上而下的搜索方法，具有回溯功能，不需要顯示評估所有d個特征的可能組合而確定最佳特征組，計算量遠小于窮舉法。但是，該算法的應用需假定特征選擇準則滿足單調性。用 X( j)表示含有 j個特征的候選特征組，單調性指的是對于具有下列嵌套關系的特征組x(j)：

其準則函數J(xj)應滿足

這點由構造特征評判準則的定義可得到保證。

為引出分支界定搜索算法的基本觀點，以從5個特征中挑選2個特征值為例。特征中所有可能組合由圖2-1所示的樹表示，頂稱為根結點，中間稱枝結點，共有D-d+1層。

圖2-1 分支界定搜索算法示意圖

現假設按自底向上，再由上向下的搜索方式從右結點開始評估樹的每個結點的特征，并進行特征選擇。設初始葉結點的 J 為 J0（為x4 x5的準則函數），在每個結點處，將結點的準則函數值和目前最優特征組的J0值進行比較。如果結點準則函數值大于J0，則還有發現更佳特征組的機會，而且必須繼續沿著最右邊的未勘探分支搜索。如果到達了樹底的結點且相應準則值大于J0，則此結點定義了當前新的最佳特征組，而J0則做相應的更新。