- 粗糙關(guān)系數(shù)據(jù)庫
- 安秋生著
- 11528字
- 2018-12-27 02:37:28
1.1 粗糙集
在自然科學(xué)、社會科學(xué)與工程技術(shù)的諸多領(lǐng)域中,都不同程度地涉及到對不確定因素和不完備信息的處理。從實際系統(tǒng)中采集到的數(shù)據(jù)常常包含著不精確的甚至不完整的信息,若采用純數(shù)學(xué)上的假設(shè)來消除或回避這種不確定性,效果往往不理想。反之,如果對這種信息進行適當(dāng)?shù)靥幚恚3S兄趯嶋H系統(tǒng)問題的解決。因此多年來研究人員們一直在努力尋找科學(xué)地處理不完整性和不確定性的有效途徑。
在經(jīng)典邏輯中,只有真、假值之分,而現(xiàn)實生活中許多含糊現(xiàn)象并不能簡單地用真、假值來表示,因此,長期以來許多邏輯學(xué)家和哲學(xué)家致力于研究含糊概念。1904年謂詞邏輯的創(chuàng)始人G.Frege就提出了含糊(Vague)一詞,他把它歸結(jié)到邊界線上,也就是說在全域上存在一些個體既不能在其某個子集上分類,也不能在該子集的補集上分類[1]。
Lotfi A.Zadeh于1965年開拓性地提出了模糊集理論,該理論是研究和處理模糊現(xiàn)象的,所研究的事物的概念本身是模糊的,即一個對象是否符合這個概念難以確定,這種由于概念外延的模糊而造成的不確定性稱為模糊性(Fuzziness)。
對于經(jīng)典數(shù)學(xué),人們自然而然聯(lián)想到“精確”二字,精確數(shù)學(xué)建立在集合論的基礎(chǔ)上。在康托創(chuàng)立的經(jīng)典集合論中,經(jīng)典集合所表達概念的內(nèi)涵和外延都必須是明確的,一事物要么屬于某集合,要么不屬于某集合,二者必居其一,不允許模棱兩可。但在人們的思維中,有許多沒有明確外延的概念,即模糊概念。語言上有許多模糊概念的詞,例如以人的年齡為論域,“青年”、“中年”、“老年”、“非年輕人”和“非老年人”都沒有明確的外延,它們之間沒有明確的界限,在一定意義下是一種過渡狀態(tài)[2];或者以人的身高為論域,“高個子”、“中等身材”和“矮個子”也沒有明確的外延。諸如此類的概念都是模糊概念。
控制論創(chuàng)始人維納在談人勝過任何最完善的機器時說:“人具有運用模糊概念的能力。”人腦能對模糊事物進行識別和判決,但計算機對模糊現(xiàn)象識別能力較差,為提高計算機識別模糊現(xiàn)象的能力,就需要把人們常用的模糊語言設(shè)計成機器能接受的指令和程序,以便機器能像人腦那樣簡潔靈活地做出相應(yīng)的判斷,從而提高自動識別和控制模糊現(xiàn)象的效率,這就推動了模糊數(shù)學(xué)的研究。
康托創(chuàng)立的經(jīng)典集合論是經(jīng)典數(shù)學(xué)的基礎(chǔ),它的邏輯真值是以數(shù)理邏輯為基礎(chǔ)的。Zadeh創(chuàng)立的模糊集合是模糊數(shù)學(xué)的基礎(chǔ),它的邏輯真值是以模糊邏輯為基礎(chǔ)的,是對經(jīng)典集合的開拓。但遺憾的是模糊集是不可計算的,即沒有數(shù)學(xué)公式可以描述這一含糊概念,故無法計算出它具體包含糊元素的個數(shù),如模糊集中的隸屬函數(shù) μ 和模糊邏輯中的算子 λ 均是如此。
20世紀(jì)70年代,波蘭數(shù)學(xué)家Z.Pawlak和一些波蘭科學(xué)院、波蘭華沙大學(xué)的邏輯學(xué)家們一起從事關(guān)于信息系統(tǒng)邏輯特性的研究,粗糙集理論就是在這種研究的基礎(chǔ)上產(chǎn)生的。1982年,Z.Pawlak發(fā)表的經(jīng)典論文Rough Sets[3],宣告了粗糙集理論的誕生。此后,粗糙集理論引起了許多數(shù)學(xué)家、邏輯學(xué)家和計算機研究人員的興趣,他們在粗糙集的理論和應(yīng)用方面做了大量的研究。1991年Z.Pawlak的專著[4]和1992年的應(yīng)用專著的出版,對這一段時期內(nèi)理論和實踐的成果做了較好的總結(jié),同時促進了粗糙集在各個領(lǐng)域的應(yīng)用。此后召開的與粗糙集有關(guān)的國際會議進一步推動了粗糙集的發(fā)展,越來越多的科技人員開始了解并準(zhǔn)備從事該領(lǐng)域的研究。目前,粗糙集已成為人工智能領(lǐng)域中一個較新的學(xué)術(shù)熱點,在機器學(xué)習(xí)、知識獲取、決策分析及過程控制等許多領(lǐng)域中都得到了廣泛的應(yīng)用。
由于最初關(guān)于粗糙集理論的研究論文大部分是用波蘭語發(fā)表的,因此當(dāng)時沒有引起國際計算機、數(shù)學(xué)和人工智能等領(lǐng)域研究者的注意,研究地域也僅局限在東歐的一些國家,直到20 世紀(jì)80年代末才逐漸引起各國學(xué)者的注意。二十多年來,由于粗糙集理論在機器學(xué)習(xí)與數(shù)據(jù)庫知識發(fā)現(xiàn)、數(shù)據(jù)挖掘、決策支持與分析、數(shù)據(jù)庫系統(tǒng)理論等領(lǐng)域的廣泛應(yīng)用,它的研究逐漸趨熱。1992年,第一屆關(guān)于粗糙集理論的國際學(xué)術(shù)會議在波蘭召開。1995年,ACM Communication將其列為新浮現(xiàn)的計算機科學(xué)的研究課題。1998年國際Information Sciences雜志為粗糙集理論的研究出了一期專輯[5]。
從1992年開始,每年都召開以Rough Set為主題的國際會議,國際上成立了相應(yīng)的粗糙集學(xué)術(shù)研究會,并且在Internet上定期發(fā)布電子公告,加速了粗糙集理論的發(fā)展與交流。由于粗糙集理論能夠分析處理不精確、不協(xié)調(diào)和不完備信息,因此作為一種具有極大潛力和有效的知識獲取工具受到人工智能研究者的廣泛關(guān)注。目前,對應(yīng)粗糙集概念,發(fā)展了粗糙代數(shù)、粗糙邏輯、粗糙關(guān)系數(shù)據(jù)庫和模糊粗糙關(guān)系數(shù)據(jù)等,與其他相關(guān)理論(如模糊集,證據(jù)理論)的關(guān)系也得到了研究和證明,明確了粗糙集理論在數(shù)學(xué)上的獨立地位。近年來,粗糙集不但在數(shù)學(xué)理論上不斷得到完善,而且在其他研究領(lǐng)域中也得到了成功的應(yīng)用,如機器學(xué)習(xí)、決策分析、近似推理、圖像處理、醫(yī)療診斷、金融數(shù)據(jù)分析、專家系統(tǒng)、沖突分析、過程控制和數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)等領(lǐng)域[6]。
粗糙集理論的基本思想是通過關(guān)系數(shù)據(jù)庫分類歸納形成概念和規(guī)則。在粗糙集中有兩個重要概念,一是近似算子,一是約簡與核心。通過上、下近似算子產(chǎn)生確定性規(guī)則與不確定性規(guī)則,通過約簡與核心簡化規(guī)則使之具有較好的泛化能力。目前成功的研究結(jié)果主要體現(xiàn)在具有有限屬性值的關(guān)系數(shù)據(jù)庫上,通過等價關(guān)系的分類以及分類對于目標(biāo)的近似,實現(xiàn)知識發(fā)現(xiàn)過程[7]。換句話說,粗糙集是利用已知的知識庫,將不精確和不確定的知識用已知的知識庫中的知識來(近似)刻畫;粗糙集理論是建立在分類的基礎(chǔ)上,它將分類理解為在特定空間上的等價關(guān)系,而等價關(guān)系構(gòu)成了對該空間的劃分[5]。利用粗糙集理論進行數(shù)據(jù)分析有以下特點:(1)在數(shù)據(jù)分析過程中,只有已知的數(shù)據(jù)被處理,由用戶提供的需處理的數(shù)據(jù)構(gòu)成了直接的信息源。它與其他處理不確定和不精確問題的理論最顯著的區(qū)別是它無需提供所處理的數(shù)據(jù)集合之外的任何先驗信息,即數(shù)據(jù)以外的參數(shù)假設(shè)是不需要的,如統(tǒng)計學(xué)中的概率分布,Dempster-Shafer證據(jù)理論中的基本概率賦值,模糊集理論中的隸屬度等,這些信息有時并不容易得到,而粗糙集理論則避免了這些問題。(2)以粗糙集理論為支撐的粗糙數(shù)據(jù)分析技術(shù)(Rough Set Data Analysis,RSDA)是一個強大的數(shù)據(jù)分析工具,它能表達和處理不完備信息,能在保留關(guān)鍵信息的前提下對數(shù)據(jù)進行約簡并求得知識的最小表達,能識別并判定數(shù)據(jù)之間的依賴關(guān)系以去除冗余屬性從而達到降低維數(shù)的目的,能從經(jīng)驗數(shù)據(jù)中獲取易于證實的規(guī)則知識等。(3)與已知的模糊集知識形成互補。粗糙集和模糊集分別刻畫了不完備信息的兩個方面:粗糙集以不可分辨關(guān)系為基礎(chǔ),側(cè)重分類;模糊集基于元素對于集合的隸屬程度,強調(diào)集合本身的隸屬性與含糊性。從粗糙集的觀點看,某些集合不能精確定義的原因是缺乏足夠的論域知識,但可以用一對清晰的集合來表示。(4)粗糙集和KDD關(guān)系密切,它為KDD提供了一種新的研究方法和工具。KDD研究的實施對象多為關(guān)系型數(shù)據(jù)庫。關(guān)系表可被看作為粗糙集理論中的信息表或決策表,這給粗糙集方法的應(yīng)用帶來極大的方便。(5)現(xiàn)實世界中的規(guī)則有確定性的,也有不確定性的。從數(shù)據(jù)庫中發(fā)現(xiàn)不確定性的知識,為粗糙集方法提供了用武之地。另外,運用粗糙集方法得到的知識發(fā)現(xiàn)算法有利于并行執(zhí)行,這極大地提高了對大型數(shù)據(jù)庫知識發(fā)現(xiàn)的效率[8]。
目前,對粗糙集的研究主要集中在:粗糙集模型的推廣,問題的不確定性的研究,與其他處理不確定性及模糊性問題的數(shù)學(xué)理論的關(guān)系與互補純粹的數(shù)學(xué)理論方面的研究,粗糙集數(shù)據(jù)約簡與知識獲取的算法研究;粗糙集與數(shù)據(jù)庫關(guān)系的研究;粗糙集與模糊集、商空間、粒計算相互之間關(guān)系研究等。這些研究有的是受應(yīng)用的推動而產(chǎn)生的,有的是純理論的,尚無應(yīng)用背景。
在粗糙集模型的推廣方面的研究主要涉及可變精確粗糙集模型、模糊粗糙集模型與粗糙模糊集模型、基于相似關(guān)系的粗糙集模型、基于一般關(guān)系的粗糙集模型、α-RST模型、基于優(yōu)先關(guān)系的粗糙集模型、不完備系統(tǒng)下的粗糙集模型以及對連續(xù)屬性的離散化等[10~26]。
粗糙集理論中的不確定性主要由兩個原因產(chǎn)生:來自論域上的二元關(guān)系及其產(chǎn)生的知識模塊,即近似空間本身,如果二元等價關(guān)系產(chǎn)生的每一個等價類只有一個元素,那么由等價關(guān)系產(chǎn)生的劃分不產(chǎn)生任何信息。論域的劃分越粗糙,則每一個知識模塊越大,知識庫中的知識越粗糙,相對于近似空間的概念和知識就越不確定,這時處理知識的不確定性往往用Shannon的信息熵來刻畫。從這個角度講,粗糙集與信息論的關(guān)系就比較密切,不少學(xué)者在這方面做了研究工作[5]。
在粗糙集與其他處理模糊性及不確定性方法之間關(guān)系的研究中,主要討論它與模糊集理論和Dempster-Shafer證據(jù)理論的關(guān)系和互補。
(1)具體地說,模糊集和粗糙集理論在處理不確定性和不精確性問題上都推廣了經(jīng)典的集合論。它們雖然有一定的相容性和相似性,但它們對知識刻畫的側(cè)重面不同。從知識的“粒度”的描述上看,模糊集是通過對象關(guān)于集合的隸屬程度來近似描述的,而粗糙集是通過一個集合關(guān)于某個可利用的知識庫上的一對上、下近似來描述的;從集合對象間的關(guān)系來看,模糊集強調(diào)的是集合邊界的定義,即邊界的不分明性,而粗糙集強調(diào)的是對象間的不可分辨性;從研究的對象上看,模糊集研究的是屬于同一類的不同對象間的隸屬關(guān)系,重在隸屬程度,而粗糙集研究的是不同類中的對象組成的集合關(guān)系,重在分類。雖然模糊集的隸屬函數(shù)與粗糙集的粗糙隸屬函數(shù)均反映了概念的模糊性,直觀上有一定的相似性,但模糊集的隸屬函數(shù)大多是由專家的經(jīng)驗給出的,因此往往帶有很大的主觀性,而粗糙集的粗糙隸屬函數(shù)是對數(shù)據(jù)進行分析計算出來的,因此非常客觀。正因如此,將粗糙集理論與模糊集理論進行某些“整合”,然后描述知識的不確定性和不精確性比它們各自描述知識的不確定性和不精確性可以顯示更強的功能,模糊粗糙集模型是個比較成功的范例[5,12]。
(2)粗糙集理論與D-S證據(jù)理論在處理不確定問題上產(chǎn)生和研究的方法是不一樣的,但是卻有某種相容性,粗糙集理論是為開發(fā)規(guī)則的機器自動生成而提出的,而D-S理論主要用于證據(jù)推理。粗糙集理論用概念的一對上、下近似來進行描述,而D-S證據(jù)理論則用一對信任函數(shù)和似然函數(shù)在給定證據(jù)下對假設(shè)進行評估。粗糙集理論中的下近似和上近似的概率恰好分別是信任函數(shù)和似然函數(shù)[27],然而生成信任函數(shù)和似然函數(shù)的基本概率分配函數(shù)(即mass函數(shù))是不同的,前者來自系統(tǒng)中的數(shù)據(jù)本身,比較客觀,而后者來自專家的經(jīng)驗,比較主觀,因此粗糙集理論與D-S證據(jù)理論具有很強的互補性[5]。
在粗糙集理論數(shù)學(xué)性質(zhì)研究方面,主要討論粗糙集的代數(shù)結(jié)構(gòu)與拓?fù)浣Y(jié)構(gòu),以及粗糙集的收斂性問題[28~31]。一些衍生數(shù)學(xué)概念也不斷出現(xiàn),如粗糙理想、粗糙半群[32]和粗糙群等。相信隨著粗糙結(jié)構(gòu)、拓?fù)浣Y(jié)構(gòu)和序結(jié)構(gòu)等各種結(jié)構(gòu)的不斷整合,必將涌現(xiàn)出新的富有生機的數(shù)學(xué)分支。
在粗糙集理論用于數(shù)據(jù)約簡與知識獲取的有效性算法研究方面,主要集中于抽取最優(yōu)決策規(guī)則算法[33]、導(dǎo)出規(guī)則的增量式算法[34~35]、約簡的啟發(fā)式算法[36~37]及粗糙集基本運算的并行算法[38~39]。
在粗糙集與數(shù)據(jù)庫關(guān)系的研究方面,主要研究粗糙集理論與關(guān)系數(shù)據(jù)庫的關(guān)系問題[40]和信息系統(tǒng)(數(shù)據(jù)庫關(guān)系的泛化)的粗糙計算問題(包括利用屬性進行分類問題、函數(shù)依賴問題、尋找數(shù)據(jù)庫的鍵值、屬性及屬性子集的重要性問題)等[41]。由粗糙集與關(guān)系數(shù)據(jù)庫結(jié)合形成了粗糙關(guān)系數(shù)據(jù)庫(Rough Relational Database,RRDB),在這方面主要研究粗糙關(guān)系操作算子、粗糙關(guān)系數(shù)據(jù)庫的不確定性的信息論度量,粗糙函數(shù)依賴及粗糙范式和粗糙數(shù)據(jù)查詢等[42~43]。
在粗糙集理論中的度量方面主要研究粗糙數(shù)據(jù)分析中的度量、知識的不確定性度量及粗糙集與粗糙關(guān)系數(shù)據(jù)庫的信息度量[4,26,43]。另外,由于基于粗糙集的邏輯是關(guān)于粗糙集的不確定推理的基礎(chǔ),發(fā)展這類邏輯理論基礎(chǔ)也是目前粗糙集理論研究的重要課題。
粗糙集理論的生命力在于它具有較強的實用性,從誕生到現(xiàn)在已在許多領(lǐng)域取得了令人振奮的成果[6~8]:
(1)在股票數(shù)據(jù)分析方面,文獻[44]應(yīng)用粗糙集方法分析了十年間股票的歷史數(shù)據(jù),研究了股票價格與經(jīng)濟指數(shù)之間的依賴關(guān)系,獲得的預(yù)測規(guī)則得到了華爾街證券交易專家的認(rèn)可。
(2)在醫(yī)療診斷方面,粗糙集方法根據(jù)以往的病例歸納出診斷規(guī)則,用來指導(dǎo)新的病例。現(xiàn)有的人工預(yù)測早產(chǎn)的準(zhǔn)確率只有17%~38%,利用粗糙集方法則可以提高到68%~90%[45~46]。
(3)在地震預(yù)報方面,文獻[47]研究了地震前的地質(zhì)和氣象數(shù)據(jù)與里氏地震級別的依賴關(guān)系,為地震的預(yù)測提供了一種新的方法。
(4)在模式識別方面,文獻[48]應(yīng)用粗糙集方法研究了手寫字符識別問題,提取出了相應(yīng)的特征屬性。
(5)決策分析[49~50]。基于粗糙集的決策規(guī)則是在分析以往經(jīng)驗數(shù)據(jù)的基礎(chǔ)上得到的。粗糙集允許決策對象中存在一些不太明確和不完整的屬性,彌補了常規(guī)決策方法的不足。希臘工業(yè)發(fā)銀行ETEVA應(yīng)用粗糙集理論協(xié)助制定信貸政策,是粗糙集多準(zhǔn)則決策方法的一個成功范例[51]。
(6)專家系統(tǒng)。粗糙集抽取決策規(guī)則的特點為構(gòu)造專家系統(tǒng)的知識庫提供了一條嶄新的途徑[46]。
(7)人工神經(jīng)網(wǎng)絡(luò)。訓(xùn)練時間過于漫長的固有缺點是制約神經(jīng)網(wǎng)絡(luò)實用化的因素之一。文獻[37]應(yīng)用粗糙集約簡神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本數(shù)據(jù)集,使訓(xùn)練速度提高了4.77 倍,獲得了較好的效果。文獻[52~53]將粗糙集與神經(jīng)網(wǎng)絡(luò)結(jié)合起來,充分利用粗糙集處理不確定性的特長以增強神經(jīng)網(wǎng)絡(luò)的信息處理能力。
(8)粗糙控制。粗糙集根據(jù)觀測數(shù)據(jù)獲得控制策略的方法被稱為從范例中學(xué)習(xí),屬于智能控制的范疇。基本步驟是:把控制過程中的一些代表性的狀態(tài)以及操作人員在這些狀態(tài)下所采取的控制策略記錄下來,形成決策表,然后對其進行分析約簡,總結(jié)出控制規(guī)則。文獻[54~55]應(yīng)用粗糙控制研究小車—倒立擺系統(tǒng)這一經(jīng)典問題,取得了較好的效果。在過程控制領(lǐng)域,文獻[56]應(yīng)用粗糙集方法成功提取了水泥窯爐的控制規(guī)則。粗糙控制的優(yōu)點是簡單迅速、容易實現(xiàn),不需要像模糊控制那樣進行模糊化。因此在特別要求控制器結(jié)構(gòu)與算法的場合,采取粗糙控制較為合適。另外,由于控制算法完全來自觀測數(shù)據(jù)本身,其決策和推理過程可以很容易被檢驗和證實。一種新的有吸引力的控制策略——粗糙控制策略正在悄然興起,其主要思想是利用粗糙集獲取模糊控制規(guī)則。
(9)沖突分析。文獻[57]應(yīng)用粗糙集方法建立了反映以色列、巴勒斯坦、約旦、埃及、敘利亞和沙特阿拉伯六國關(guān)于中東和平問題各自立場的談判模型。
(10)數(shù)據(jù)庫知識發(fā)現(xiàn)。KDD是當(dāng)前人工智能和數(shù)據(jù)庫技術(shù)交叉學(xué)科的研究熱點之一。粗糙集方法現(xiàn)已成為KDD的一種重要方法,其導(dǎo)出的知識精練且更便于存儲使用。與其他知識發(fā)現(xiàn)方法相比,粗糙集方法有如下特點:粗糙集方法的伸縮性強;魯棒性和抗噪聲能力強;知識的可理解性和開放性較好;比較適合于符號信息。此外,粗糙集方法可以對數(shù)據(jù)進行預(yù)處理,去掉多余屬性,提高發(fā)現(xiàn)效率,降低錯誤率。
王玨教授在談到Rough Set理論對歸納機器學(xué)習(xí)的貢獻時認(rèn)為,基于Rough Sets的Reduct(約簡)理論在歸納機器學(xué)習(xí)理論中起著重要的作用,而Roughness也成為粒度計算中對知識粒度的一個重要測量。他把粗糙集的貢獻總結(jié)為三點:①規(guī)范歸納機器學(xué)習(xí),Rough Sets可以作為歸納機器學(xué)習(xí)的理論基礎(chǔ):Rough Set理論第一次揭示了歸納機器學(xué)習(xí)中的兩個模型ID3和AQ11的關(guān)系和本質(zhì);②獨立約簡,這是一個有數(shù)學(xué)基礎(chǔ)的結(jié)構(gòu)目標(biāo),從而部分解決了機器學(xué)習(xí)平凡性的問題:與經(jīng)典的ID3和AQ11之類的歸納機器學(xué)習(xí)相比,Rough Set理論所暗示的研究空間要大得多。由于獨立約簡是一個介于最優(yōu)與完全隨意(事實上就是無目標(biāo))之間的一個問題復(fù)雜性O(n2)的目標(biāo),對機器學(xué)習(xí)而言,其重要性就不僅限于結(jié)構(gòu)化機器學(xué)習(xí)的研究了,它已具有了更為深刻的含義;③正區(qū)域與Roughness,以描述知識粒度與其測量:Roughness的提出使得信息系統(tǒng)的知識粒度可以使用Roughness來測量,Roughness成為知識粒度的特征,這就是Rough Set理論的另外一個重要貢獻[58]。
商空間理論的創(chuàng)始人之一張鈴教授認(rèn)為,粗糙集從本質(zhì)上看是微觀的粒度計算。研究粒度的表示、刻畫和粒度與概念之間的依存關(guān)系,粗糙集理論中的論域只是簡單的點集,元素之間沒有拓?fù)潢P(guān)系。故在某種意義下,粗糙集理論是一種無結(jié)構(gòu)的商空間理論。
雖然粗糙集理論至今只有近三十年的發(fā)展歷史,但相關(guān)的研究成果是令人注目的,它是一種非常有前途的軟計算方法,為處理不確定性信息提供了強有力的分析手段,相信粗糙集理論具有廣闊的發(fā)展空間,今后將會在更多的領(lǐng)域發(fā)揮作用。
同時也應(yīng)指出,在數(shù)據(jù)挖掘技術(shù)與理論非常豐富的今天,粗糙集理論也不是萬能的。對建模而言,盡管粗糙集方法對知識不完全處理是有效的,但是由于未包含處理不精確或不確定原始數(shù)據(jù)的機制,因此,單純地使用這個理論不一定能有效地描述與處理不精確或不確定問題,這意味著需要其他方法補充。粗糙集理論與其他軟計算方法的結(jié)合能夠提高數(shù)據(jù)挖掘能力,這是由現(xiàn)實世界的復(fù)雜性和處理方法有限能力的矛盾決定的。因此,在處理不確定問題時,往往將粗糙集方法與其他方法結(jié)合,如粗糙集與模糊集、證據(jù)理論、神經(jīng)網(wǎng)絡(luò)、遺傳算法、信息論方法、統(tǒng)計方法、Petri網(wǎng)和Bayesian方法等相結(jié)合,可以說,粗糙集與其他軟計算方法的結(jié)合是粗糙集發(fā)展的一種趨勢。
1.1.1 信息系統(tǒng)
任何一種智能信息處理方法都不可能離開適合于其自身的知識表達形式,基于粗糙集理論的知識發(fā)現(xiàn)也不例外,它主要是借助于信息系統(tǒng)來展開其理論和方法的。
從認(rèn)知科學(xué)的角度來看,可以認(rèn)為知識是人類對客觀事物的分類能力,概念為事物類的描述。一般地,人們在研究問題的時候總是在感興趣的事物范圍內(nèi)來進行的,該范圍即數(shù)學(xué)上所說的論域。假定起初對論域中的個體(對象)具有必要的信息或概念,這些信息和概念相對于要發(fā)現(xiàn)的知識都是原始的和基本的。通過這些概念可以將論域中的對象劃分到不同的類別。如果兩個對象具有完全相同的信息,那么將無法分辨它們,或者稱它們是不可分辨的。按照論域中的對象之間是否具有不可分辨性,就可以在論域上建立對象之間的一個二元關(guān)系,顯然這是一個等價關(guān)系[5~6]。
集合上的等價關(guān)系和集合的劃分是等價的概念,即集合上的等價關(guān)系和其上的劃分是可以相互唯一決定的。而劃分就是分類,所以等價關(guān)系與分類具有天然的聯(lián)系。論域中由等價關(guān)系劃分出來的任意子集,都可稱為論域中的一個概念。通常把論域中的任意概念族稱為關(guān)于論域的抽象知識,簡稱為知識,它也代表了對論域中對象的分類[4]。
設(shè)U是一個論域,R是其上的一個等價關(guān)系族,根據(jù)上面的討論,知識可以形式化地定義為在等價關(guān)系族R下對論域U中對象的劃分,記作U/R。信息系統(tǒng)是粗糙集理論對知識進行表達和處理的基本工具。
定義1.1[4] 信息系統(tǒng)是一個有序四元組S=(U,AT,V,f),其中,
U——稱為論域,由對象組成,它是一個有限非空集合;
AT——稱為屬性集,它是一個有限的非空屬性集合;
Va——稱為屬性值域,Va是屬性a的值域;
f——是一個U×AT→V的映射,對?u∈U,a∈AT,f(u,a)∈Va,通常稱f為信息函數(shù)或描述函數(shù)。
事實上,信息系統(tǒng)可直觀地表達為一個二維表的形式,通常稱該二維表為信息表,它是表達描述知識的數(shù)據(jù)表格.
定義1.2[4] 一般地,定義1.1中的AT=C∪D,C稱為條件屬性,D 稱為決策屬性,如果D=φ,此時的信息系統(tǒng)即為一般的信息系統(tǒng);如果D≠φ,則該信息系統(tǒng)稱為決策信息系統(tǒng),表達決策信息系統(tǒng)的信息表稱為決策表。
1.1.2 近似集及其性質(zhì)
在信息系統(tǒng)中,對一個概念(即論域的一個子集)進行刻畫時,一般只能通過信息系統(tǒng)的基本概念來解釋,但由于現(xiàn)有的信息不足,并非對所有的概念都能精確地刻畫和描述,也就是說,此時必須面對用基本概念近似描述任意概念的任務(wù)。粗糙集理論中的近似空間正是基于這種要求而提出的[8]。
定義1.3[4] 稱論域U 連同其上定義的一個二元關(guān)系R 所形成的有序二元組S=(U,R)為論域U上的一個近似空間。
論域上一個二元關(guān)系可以按照某種方式?jīng)Q定論域的一個劃分或覆蓋,而這些劃分或覆蓋中的成員將被看作基本概念,用來描述一般的概念。特別地,如果關(guān)系R 是一個等價關(guān)系(在粗糙集理論中也稱為不可分辨關(guān)系(Indiscernibility Relation)),則它唯一地決定了論域的一個劃分。
令[x]R={y∈U|(x,y)∈R},稱[x]R為由R 決定的x 的等價類,關(guān)系R的等價類稱為S中的基本集(基本概念)或原子。
S 中任何有限基本集的并稱為S 中的可定義集。S 中所有可定義集用符號Def(S)來表示。可定義集反映的是論域中可以被基本概念精確描述的概念。
知識的粒度性是造成已有知識不能精確地表示某些概念的原因。這就產(chǎn)生了關(guān)于不精確的“邊界”思想。著名哲學(xué)家G.Frege認(rèn)為“概念必須有明確的邊界,沒有明確邊界的概念,將對應(yīng)一個在周圍沒有明確界線的區(qū)域。”粗糙集中的模糊性就是一種基于邊界的概念,即一個不精確的概念具有模糊的不可被明確劃分的邊界,為刻畫模糊性,每個不精確概念用一對稱為上近似與下近似的精確概念來表示[1]。
設(shè)X?U,集合X 關(guān)于R 的下近似(Lower Approximation)定義為:

實際上是由那些根據(jù)已有知識判斷肯定屬于X 的對象所組成的最大集合,也稱為X的正區(qū)域(Positive Region),記作POSR(X)。
由根據(jù)已有知識判斷肯定不屬于概念X 的對象所組成的集合稱為X的負(fù)區(qū)域(Negative Region)。記作NEGR(X):
NEGR(X)={x∈U|[x]R∩X=φ}
集合X關(guān)于R的上近似(Upper Approximation)定義為:

是由那些根據(jù)已有知識判斷可能屬于X 的對象所組成的最小集合。顯然,
。
集合X關(guān)于R的邊界區(qū)域(Boundary Region)定義為:

BNR(X)為集合的上近似與下近似之差。如果BNR(X)=φ,則稱X 關(guān)于R 是清晰的(Crisp),X 為精確集、可定義集;反之,如果BNR(X)≠φ,則稱X為關(guān)于R的粗糙集。
我們也可以將看作為X 中的最大可定義集,將
看作為含有X的最小可定義集。
下近似和上近似具有下列性質(zhì)。
定理1.1[4] 和
有下列性質(zhì):
(1);
(2);
(3);
(4);
(5);
(6);
(7;
(8);
(9);
(10);
(11);
(12);
(13)。
1.1.3 近似質(zhì)量的刻畫
粗糙集理論中,集合的不精確性是由于邊界區(qū)域的存在而引起的。集合的邊界區(qū)域越大,其精確性越低。為了更準(zhǔn)確地表達集合的精確性,引入近似精度的概念。由等價關(guān)系R 定義的集合X的近似精度為:

其中X≠φ,card(X) 表示集合X 的基數(shù)。近似精度αR(X)用來反映我們了解集合X的知識的完全程度。
顯然,對每個R和X?U有0≤αR(X)≤1。
當(dāng)αR(X)=1時,X的R邊界區(qū)域為空集,集合X為R可定義的;
當(dāng)αR(X)<1時,集合X有非空R邊界區(qū)域,集合X為R不可定義的,即粗糙的[4]。
也可以用其他一些度量來刻畫集合X 的不精確程度。例如,用X的R粗糙度ρR(X)來刻畫:

X的R粗糙度與近似精度恰恰相反,它表示的是集合X的知識的不完全程度。
也可根據(jù)上近似和下近似的定義來表達粗糙集的另一個有用的特征,即拓?fù)涮卣鳌O旅娑x四種不同的重要粗糙集[4]:
(1)如果Rapr (X)≠φ且aprR(X)≠U,則稱X 為R 粗糙可定義的。
(2)如果且
,則稱X 為R 內(nèi)不可定義的。
(3)如果,則稱X 為R 外不可定義的。
(4)如果且
,則稱X 為R 全不可定義的。
上述定義說明如果集合X 為R 粗糙可定義,則可以確定U中某些元素是否屬于X 或-X;如果集合X 為R 內(nèi)不可定義,則意味著可以確定U 中某些元素是否屬于-X,但不能確定U 中任一元素是否屬于X;如果集合X為R外不可定義,則可以確定U中某些元素是否屬于X,但不能確定U中任一元素是否屬于-X;如果集合X 為R 全不可定義,則意味著不能確定U 中任一元素是否屬于X或-X。
前面介紹了兩種刻畫粗糙集的方法。一種為用近似程度的精度來表示粗糙集的數(shù)字特征;另一種為用粗糙集的分類表示粗糙集的拓?fù)涮卣鳌4植诩臄?shù)字特征表示了集合邊界區(qū)域的大小,但沒有說明邊界區(qū)域的結(jié)構(gòu);而粗糙集的拓?fù)涮卣鳑]有給出邊界區(qū)域大小的信息,它提供的是邊界區(qū)域的結(jié)構(gòu)。
粗糙集理論中定義了粗糙隸屬函數(shù)(Rough Membership Function)。通過使用不可分辨關(guān)系,定義元素x對集合X的粗糙隸屬函數(shù)如下:

顯然,0≤μRX(x)≤1。
定理1.2[60] 粗糙隸屬函數(shù)有以下性質(zhì):
(1),當(dāng)且僅當(dāng)
;
(2),當(dāng)且僅當(dāng)
;
(3)當(dāng)且僅當(dāng)x∈BNR(X);
(4)如果R={(x,x)|x∈U},即R 是U 上的恒等關(guān)系,則是X的特征函數(shù);
(5)如果(x,y)∈R,則RμX(x)= RμX(y);
(6),?x∈U;
(7),
,?x∈U;
(8),
,?x∈U;
(9)如果X={X1,X2,…,Xn}是U的一族互不相交的子集,則。
1.1.4 知識約簡與依賴性
知識約簡是粗糙集理論的重要內(nèi)容之一,在信息系統(tǒng)S=(U,AT,V,f)中,一般屬性集AT往往不止含有一個屬性,每一個屬性a∈AT按照對象在其下的取值是否相同就可以決定論域U上的一個等價關(guān)系,記為IND(a)。同樣,一組屬性按照元素在該組屬性下的取值是否均相同,也可以決定論域U上的一個等價關(guān)系。這些等價關(guān)系均各自決定了論域的劃分。然而從形成對論域的劃分不變這一角度來講,并非所有的屬性均是必不可少的。換句話說,在保持對論域分類能力不變的前提下,有些屬性是多余的,刪除冗余屬性就是信息系統(tǒng)中的屬性約簡問題[4~7]。
設(shè)S=(U,AT,V,f)是一個信息系統(tǒng),對任一子集P?AT,定義U上的二元關(guān)系IND(P)如下:

容易驗證IND(P)是U上的等價關(guān)系。當(dāng)P為單元集{a}時,IND(P)簡記為IND(a)。如果(x,y)∈IND(P),則稱x 和y 是P 不可分辨的[4]。
用U/IND(P)來表示U的一個劃分,其中的任何元素[x]P稱為等價類,這里[x]P={y∈U:(x,y)∈IND(P)}。由于屬性子集P?AT對IND(P)的唯一決定性,所以常用U/P來替代U/IND(P)[4]。
設(shè)P 是一個屬性子集,p∈P 是一個屬性,如果IND(P)=IND(P-{p}),則稱p在P中是不必要的,否則稱為是必要的;如果每一個p∈P 均在P 中是必要的,則稱P 是獨立的,否則稱P是依賴的,顯然,一個獨立屬性集的任一子集也是獨立的。
設(shè)Q?P,如果Q是獨立的,且IND(Q)=IND(P),則稱Q為P 的一個約簡。一般來講,一個屬性子集P 可以有多個約簡,P的所有約簡所成的集合記為red(P),一個屬性子集P 的所有必要的屬性組成的集合稱為它的核,記作core(P)[4]。
對一個屬性集P,有:
定理1.3[4]core(P)= ∩red(P).
該定理表明:一組屬性的核是該組屬性所表達知識的不可消去的知識特征集合;另外它還可以作為約簡計算的基礎(chǔ)。
一般地,設(shè)P和Q是論域U上的兩個等價關(guān)系,Q的P正域,記為posP(Q),被定義為:

可以看出,Q 的P 正域是U 中所有根據(jù)分類U/P 的信息可以準(zhǔn)確地被劃分到關(guān)系Q的等價類中去的對象的集合。
在決策信息系統(tǒng)中,條件屬性和決策屬性按照它們所決定的等價關(guān)系分別把論域作了兩個分類,當(dāng)要用條件屬性決定決策屬性,特別是要得到能最大程度地表達論域?qū)ο蟮拇_定性決策規(guī)則時,所要考察的正是哪些對象根據(jù)條件屬性所提供的信息可以被準(zhǔn)確地劃分到?jīng)Q策屬性為論域所提供的分類中去,這恰好就是一個分類相對于另一個分類的正域的概念[6~7]。
但從一組條件屬性中去掉一些屬性時將會導(dǎo)致屬性對論域劃分的改變,此時劃分會變粗,即信息的粒度會變大。這種變化就會導(dǎo)致決策屬性在其下的正域的改變,從而改變原系統(tǒng)中所隱含的決策知識。但是這種分析并非對去掉任一條件屬性都適合。相對約簡即是在保證條件屬性對決策屬性的正域不變的條件下,從條件屬性組中刪除多余的屬性。為此有:
令P和Q為等價關(guān)系族,p∈P,如果

則稱p為P中Q不必要的;否則p被稱為P中Q必要的。如果P中的每一個屬性都是Q必要的,則稱P為Q獨立的。
設(shè)S?P,S為P的Q約簡,當(dāng)且僅當(dāng)S是P的Q獨立子族,且posS(Q)=posP(Q),P的Q約簡稱為相對約簡。用redQ(P)來表示所有P的Q約簡所成的集合。P中所有Q必要的屬性構(gòu)成的集合稱為P的Q核,簡稱為相對核,記為coreQ(P)[4]。
類似于約簡和核,相對約簡和相對核有如下關(guān)系。
定理1.4[4]coreQ(P)=∩redQ(P)。
設(shè)S=(U,AT,V,f)是一個信息系統(tǒng),P,Q?AT是兩個屬性子集,稱知識Q依賴于知識P(記作P?Q),當(dāng)且僅當(dāng)IND(P)?IND(Q);稱知識P等價于知識Q(記作P?Q),當(dāng)且僅當(dāng)P?Q且Q?P;稱知識P與知識Q獨立,當(dāng)且僅當(dāng)P?Q且Q?P均不成立[4]。
對于屬性子集P和Q,盡管它們之間可能不存在依賴關(guān)系,但就其所定義的某些概念而言卻存在依賴關(guān)系,即一個(或幾個)概念是另一個(或幾個)概念的子概念,這就出現(xiàn)了知識的部分依賴。
部分依賴在決策規(guī)則的刻畫方面起著重要作用,它可以決定決策表中的默認(rèn)規(guī)則。既然是部分依賴就有一個依賴程度的問題,如果部分依賴的依賴度很低,則這種依賴的意義就很小,反之意義就很大。知識的依賴度可以由一個分類相對于另一個分類的正域的概念來刻畫。
令k=γP(Q)=card(posP(Q))/card(U),
稱知識Q是k度依賴于知識P的,記作P?kQ。
顯然,0≤k≤1,當(dāng)k=1時,Q完全依賴于P;
當(dāng)k=0時,Q完全獨立于P。
由依賴度的定義可以知道,當(dāng)P?kQ時,由Q導(dǎo)出的論域的分類U/IND(Q)的正域覆蓋了論域的k×100%的對象。這意味著,如果希望用知識P 來描述知識Q,那么論域中有k×100%的對象滿足(適合)這種描述[4~7]。
知識依賴度k=γP(Q)=card(posP(Q))/card(U)是從整體角度刻畫了一個知識依賴于另一個知識的程度。它不能反映這種依賴在決策知識的概念類中的分布情況。為此用,X∈U/IND(Q)來刻畫通過知識P 能在多大程度上將知識Q 的概念X中的對象進行正確劃分[4~7]。
上述的γP(Q)和γP(X)給出了知識P 關(guān)于知識Q 的分類能力的全部信息。
通過推導(dǎo),可得下列性質(zhì)。
定理1.5[4] 下列條件是等價的:
(1)P?Q;
(2)IND(P∪Q)=IND(P);
(3)對于所有X∈U/IND(Q),有。
定理1.6[4] 對知識依賴有下面的性質(zhì):
(1)如果P?Q且Q?R,則P?R;
(2)如果P?R且Q?R,則P∪Q?R;
(3)如果P?R∪Q,則P?R且P?Q;
(4)如果P?Q且Q∪R?T,則P∪R?T;
(5)如果P?Q且R?T,則P∪R?Q∪T;
(6)如果P?Q且P'?P,則P'?Q;
(7)如果P?Q且Q'?Q,則P?Q'。
- 高性能混合信號ARM:ADuC7xxx原理與應(yīng)用開發(fā)
- Learning Apache Spark 2
- Julia 1.0 Programming
- VMware Performance and Capacity Management(Second Edition)
- Windows 7寶典
- Embedded Programming with Modern C++ Cookbook
- 計算機網(wǎng)絡(luò)安全
- 愛犯錯的智能體
- 電腦上網(wǎng)輕松入門
- 機器人人工智能
- 單片機原理實用教程
- 會聲會影X4中文版從入門到精通
- Web編程基礎(chǔ)
- 傳感器原理與工程應(yīng)用
- Hands-On Deep Learning with Go