- 知識型企業(yè)知識創(chuàng)新演化模型及其評價
- 尹彥
- 3084字
- 2019-09-29 15:38:39
2.4 粗糙集理論
粗糙集理論(Rough Set Theory)是一種研究模糊、不確定性數(shù)據(jù)和知識并進行分析、推理,發(fā)現(xiàn)數(shù)據(jù)間的關(guān)系,提取有用數(shù)據(jù)、剔除冗余特征的一種理論方法。這種表達、學(xué)習(xí)、歸納的理論方法是于1982年由波蘭華沙理工大學(xué)Pawlak教授[114]提出的,用于數(shù)據(jù)分析,是基于符號的機器學(xué)習(xí),本質(zhì)是劃分樣本空間,首先定義一個不可分關(guān)系(等價關(guān)系),然后將樣本空間劃分為等價類。在此基礎(chǔ)上,1991年Skowron[115]提出了差別矩陣方法,提供了將reduct、core和邊緣區(qū)域定義在一類距離上的方法,使屬性約簡易于計算。目前,粗糙集理論已經(jīng)被成功應(yīng)用于機器學(xué)習(xí)、決策分析、過程控制、模式識別與數(shù)據(jù)挖掘等領(lǐng)域。
2.4.1 粗糙集理論概述
粗糙集理論的創(chuàng)建目的就是直接對數(shù)據(jù)進行分析和推理,通過知識約簡,從中發(fā)現(xiàn)隱含的規(guī)律,導(dǎo)出問題的決策或分類規(guī)則,揭示潛在的知識。它的特點是不需要提供問題所需處理的數(shù)據(jù)集合之外的任何先驗知識,而是從指定問題的集合出發(fā),與處理其他不確定性問題的理論有很強的互補性,最終找出事情的內(nèi)在規(guī)律。所以,對問題的不確定性的描述或處理可以說是比較客觀的。因此該理論與概率論、模糊數(shù)學(xué)經(jīng)常結(jié)合運用。
目前,粗糙集理論作為一種處理不完整、不一致、不精確等不完備的信息的工具被應(yīng)用到各個領(lǐng)域并取得了突飛猛進的發(fā)展,包括知識獲取、知識發(fā)現(xiàn)、機器學(xué)習(xí)、模式識別、決策分析和決策支持等。證據(jù)理論、神經(jīng)網(wǎng)絡(luò)、模糊集和粗糙集理論一起組成了不確定性計算的重要分支。其數(shù)理解釋如下:
設(shè)信息系統(tǒng)S為一個四元組,即
S=<U, A, V, f>
其中,U是對象集合,即論域;A是屬性集合;V是屬性值的集合;f是一個信息函數(shù),它指定U中每一個對象的屬性值。若屬性集可分為條件屬性集C和決策屬性集D,即有A=C∪D且C∩D=?,則該信息表稱為一個決策表L。X?U為U的任意子集,B?A,稱(U, RB)為近似空間。由(U, RB)產(chǎn)生的等價類劃分為U/RB={[ui]B|ui∈U}。當(dāng)集合X能表示成屬性子集B等價類的并集時,稱集合X是可以精確定義的,否則就只能通過逼近的方式刻畫。
粗糙集理論引入了上近似和下近似的概念以描述知識的確定程度,并以這些概念來定義粗糙度,即U中的一個子集X與被關(guān)系R劃分之后的U的相合程度。
定義2.1:集合X關(guān)于RB的上近似為

其中,Bˉ(X)是由所有與X相交非空的等價類[ui]B的并集,是那些可能屬于X的對象組成的最小集合。
定義2.2:集合X關(guān)于RB的下近似為

其中,B_(X)是由那些根據(jù)已有知識判斷肯定屬于X的對象組成的最大集合,也稱為X的RB正域,記為POSB(X)。
定義2.3:集合X關(guān)于RB的邊界定義為
BNB(X)=Bˉ(X)-B_(X)
NEGB(X)=U-Bˉ(X)
依據(jù)以上定義可知,當(dāng)且僅當(dāng)BNB(X)=?, X為RB可定義集;當(dāng)且僅當(dāng)BNB(X)≠?, X為RB不可定義集,也稱X為粗糙集。
下圖2-6為粗糙近似圖表達了B_(X), Bˉ(X)和BNB(X)之間的關(guān)系。

圖2-6 粗糙近似[133]
根據(jù)以上理論,粗糙集本質(zhì)是不能用分類精確表示的對象集,集合的不精確是由于邊界域的存在而引起的,由屬性B形成的等價關(guān)系定義X?U的近似精度可定義為

式中顯然有0≤αB(X)≤1。當(dāng)αB(X)=1時,表明BNB(X)=?, X是可定義的;當(dāng)αB(X)<1時,表明BNB(X)≠?, X是不可定義粗糙集。對于由屬性子集B的等價類[u]B,所描述的X信息程度可定義為

2.4.2 粗糙集應(yīng)用于綜合評價的研究
雖然粗糙集理論與綜合評價相結(jié)合的研究越來越受到重視,但是到目前為止,還處于比較初級的階段[116]。
在國際上,日本的Tsumoto[118]應(yīng)用了粗糙集理論,并在臨床醫(yī)學(xué)診斷中得到了理想的結(jié)果;Nick[117]將成功的粗糙集方法運用在水資源調(diào)度系統(tǒng)評價及預(yù)測中;Dimitras[119]將粗糙集方法運用到預(yù)測公司并購;Jia[120]則首次將粗糙集的方法運用到?jīng)Q策樹的節(jié)點的選擇,其多屬性綜合評價方法的使用得到推廣;Zaras[122]提出了帶偏好關(guān)系的粗糙集近似方法,并用于多屬性隨機優(yōu)勢評估問題;Ramanna.S[121]提出基于粗糙集近似空間的軟件質(zhì)量測評方法;Alam S.S[123]提出基于粗糙集的AHP排序方法;Salvatore Greco[124]提出多屬性多準(zhǔn)則分類問題的粗糙集方法。
國內(nèi)的相關(guān)研究也很多,蔣朝哲[130]將基于DNA計算機的約簡算法機理運用到粗糙集屬性構(gòu)想;李紅啟[127]在鐵路貨運量預(yù)測中運用了粗糙集;張梅[125]將粗糙集理論用于國際競爭力因素分析;蒙祖強[129]在個性化的設(shè)計決策規(guī)則挖掘算法中運用了粗糙集理論;何亞群[126]運用粗糙集方法解決信息,有針對性但是不完全的多屬性決策問題;黃定軒等[128]在多屬性客觀權(quán)重的分配方法上運用粗糙集理論進行了研究。相繼召開的以粗糙集理論為主題的學(xué)術(shù)會議發(fā)表了大量有價值的論文也推動了粗糙集在各個領(lǐng)域的應(yīng)用。
從上述研究成果中可以發(fā)現(xiàn),粗糙集能處理評估數(shù)據(jù)間的依賴關(guān)系、不精確和不確定知識的表達、不損失信息的前提下進行數(shù)據(jù)簡化[131]、從經(jīng)驗中獲取知識、推理不完整的知識、分析不一致信息的、近似模式分類。粗糙集僅根據(jù)數(shù)據(jù)本身進行,并分析數(shù)據(jù)間的依賴關(guān)系,總結(jié)數(shù)據(jù)間的規(guī)律,生成分類規(guī)則。粗糙集與模糊集等一些傳統(tǒng)分析工具相比的優(yōu)勢在于對不準(zhǔn)確和不確定信息的處理分析。其不需要先驗知識,從而可以完全客觀地用近似的概念來表達[132]。粗糙集可以在保持不損失完整性的前提下,依靠其間的關(guān)系來消減冗余信息。
約簡功能主要被粗糙集用于評價指標(biāo)的篩選。運用粗糙集的約簡算法,能夠在不改變評價結(jié)果和保持指標(biāo)集能力不變的基礎(chǔ)上,消減重疊或冗余的指標(biāo)。例如,通過更少的條件得出精度不變的相同評價結(jié)果,用最小子集Cs來代替原來的指標(biāo)集,即
Cs=opt(C)
式中,opt(C)是指通過初選指標(biāo)集合建模,得到指標(biāo)集約簡的內(nèi)在知識,這也就是屬性集的核(屬性約簡交集),表示為Core(C), C的所有約簡是RED(C)。Core(C)=∩RED(C)。從核中去掉任何一個本質(zhì)部分屬性都將對屬性集對論域中對象產(chǎn)生影響。尋找到理想最小約簡,是一件很難的事情。人們也開發(fā)了很多的方法,例如考慮屬性關(guān)聯(lián)的啟發(fā)式算法等。
2.4.3 粗糙集理論的利弊
粗糙集是一種研究信息不完全、不精確問題的數(shù)學(xué)工具。其優(yōu)點如下[133]:
(1)基于粗糙集的計算方法非常適合并行處理,約簡數(shù)據(jù),研究數(shù)據(jù)中的關(guān)系和模式,對數(shù)據(jù)的重要性進行評價,這樣在數(shù)據(jù)中產(chǎn)生的規(guī)則更易于理解。
(2)提高收集數(shù)據(jù)的效率,經(jīng)過粗糙集約簡后的評價指標(biāo)所要求的數(shù)據(jù)量大大減少,提高了評價效率。
(3)當(dāng)數(shù)據(jù)是不確定、不完整和不精確的時候,利用粗糙集處理數(shù)據(jù)分類問題的數(shù)學(xué)方法,使得問題的解決在數(shù)學(xué)上非常嚴密。
(4)粗糙集理論有很強的實用性,無須提供除問題所需處理的數(shù)據(jù)集合之外的任何先驗信息。它通過應(yīng)用驅(qū)動了研究,目的是為開發(fā)自動生成規(guī)則系統(tǒng),因而它的研究完全是應(yīng)用驅(qū)動的。
(5)粗糙集理論對知識明確了數(shù)學(xué)含義,將其作為分辨關(guān)系的族,用各種數(shù)學(xué)方法進行分析處理,這樣也避免了人為因素的干擾,精確的表示增強了評估結(jié)果的可信性和客觀性。
(6)粗糙集理論的兼容性很強,可以和模糊邏輯、遺傳算法、神經(jīng)網(wǎng)絡(luò)等一起作為組合運用,提供了魯棒性強和成本較低的解決方案。
粗糙集理論是近期智能科學(xué)和知識發(fā)現(xiàn)中新的研究熱點,它已經(jīng)在機器學(xué)習(xí)、股票數(shù)據(jù)分析、模式識別、地震預(yù)報、沖突分析、知識發(fā)現(xiàn)、粗糙控制、醫(yī)療診斷、專家系統(tǒng)等領(lǐng)域得到了廣泛應(yīng)用。粗糙集理論的有效性已得到計算機基礎(chǔ)研究人員的驗證。它能有效處理不確定性知識的表達、推理,模式分類,知識發(fā)現(xiàn)和分析,數(shù)據(jù)中因果關(guān)系的發(fā)現(xiàn),決策算法通過數(shù)據(jù)歸納形成,數(shù)據(jù)簡化,模式識別,識別、評價數(shù)據(jù)間的依賴性。
本書就是運用粗糙集來約簡文中研究的眾多影響因素,從而找到最重要的影響因素以降低評價計算難度。在評價指標(biāo)的篩選過程中,粗糙集的屬性約簡能夠發(fā)揮巨大的作用。通常指標(biāo)體系中都存在性質(zhì)相似或冗余的屬性,運用粗糙集屬性約簡算法,能在保持指標(biāo)集的分類能力不變的條件下,即不改變最終評價結(jié)果的基礎(chǔ)上,刪除其中冗余或重疊的指標(biāo)。
- 一城一美好
- 助老志愿服務(wù)工作方法:以夕陽再晨為例
- 敏捷績效改進
- 理想的團隊成員:識別和培養(yǎng)團隊協(xié)作者的三項品德(經(jīng)典版)
- 酒店概論
- 企業(yè)風(fēng)控體系建設(shè)全流程操作指南:規(guī)范講解+流程分解+操作實務(wù)+案例解析
- 當(dāng)薪酬不再與績效掛鉤:京瓷、海底撈的經(jīng)營機制
- 華為高效工作法:任正非鍛造18萬員工超強執(zhí)行力的秘訣
- 企業(yè)信息化水平評價理論與方法
- 績效管理實戰(zhàn):讓HR輕松學(xué)會績效管理
- 上承戰(zhàn)略 下接績效:培訓(xùn)管理系統(tǒng)解決方案
- 哈佛情商課
- 認識管理學(xué)習(xí)手冊與案例解析
- 管理創(chuàng)新的躍遷
- 華為能,你也能:IPD產(chǎn)品管理實踐