官术网_书友最值得收藏!

3.1.3 數據歸約

數據集一般都會含有大量的屬性,并且實例也非常龐大。如果在海量數據上進行復制的數據分析和挖掘將需要很長時間,使得這種分析不現實或不可行。數據歸約技術可以得到數據集的規約表示,它比原數據集小得多,但仍接近于保持原數據的完整性。這樣,在歸約后的數據集上挖掘將更有效,并產生相同(或幾乎相同)的分析結果。

數據歸約的內容主要包括元組的歸約和屬性的歸約。元組(Tuples或Records)和屬性(Attributes或Fields)是關系數據庫中的概念。關系數據庫是表的集合,每個表包含一組屬性,并存放大量的元組。屬性是表中的列或字段,元組是表中的行或記錄。關系數據庫中的元組代表一個唯一的關鍵字所標識的對象,并被一組屬性值描述。

(1)元組的歸約 元組的歸約是指通過離散化數值型屬性以及泛化字符型屬性值來歸約數據庫中的元組。連續屬性離散化和概念分層是元組歸約的兩種主要方法。

連續屬性離散化是指將數值屬性的值域劃分為若干子區間,每個區間對應于一個離散值。離散化算法要求能自動地發現從數值屬性值域到離散屬性值域的對應關系。由于大多數機器學習算法、分類算法及粗糙集理論只能處理離散化屬性,因此,連續屬性的離散化就顯得尤為重要。概念分層,也可以稱為數據泛化,是從低層概念的集合到它們所對應的更高一層的映射,并且可以在不同的概念層次上進行。概念分層可以是面向屬性的歸納,也可以基于粗糙集等理論進行。通過概念分層,不同的元組可能被泛化為相同的元組,合并這些相同的廣義元組,并累計它們對應的計數值,從而達到歸約元組的目的。

(2)屬性的歸約 在海量數據庫包含的成百上千的屬性中,并不是所有的屬性對于深層次的數據分析都有用。因此,在挖掘技術使用之前,需要對這些屬性進行分析,刪除與分析任務不相關或不重要的屬性,這就是屬性的歸約。屬性的歸約方法大體可以分為兩類:屬性的排序,屬性的提取和屬性子集的選擇。

1)屬性的排序是指根據特有的評估測度標準計算出屬性的順序。測度的標準可以基于數據的精度、一致性、信息量的多少、樣本之間的距離或屬性之間的統計相關性等。屬性的排序結果不僅可以作為屬性歸約的依據,也可以作為屬性離散化或屬性子集選擇的依據。

2)屬性的提取和屬性子集的選擇的基本任務是從眾多屬性中找出那些最有效的屬性。屬性的提取是指通過尋找原始屬性空間與低維度空間的一個映射或變換,使用新屬性代替原始屬性;屬性子集的選擇是指從一組屬性中挑選出一些最有代表性的屬性。屬性子集選擇的目標是找出最小的屬性子集,使得數據類的概率分布盡可能地接近使用所有屬性的原分布,從而達到減少屬性項的目的。

主站蜘蛛池模板: 崇左市| 元朗区| 嘉鱼县| 南丰县| 罗平县| 屏东县| 葫芦岛市| 嵊泗县| 常州市| 赞皇县| 鸡泽县| 洛川县| 湟中县| 灵山县| 通许县| 大安市| 阿瓦提县| 余干县| 抚远县| 称多县| 商都县| 昌吉市| 梧州市| 唐海县| 确山县| 定州市| 昂仁县| 浦城县| 彰化市| 勃利县| 江永县| 玉树县| 临夏市| 哈尔滨市| 鹤山市| 汕尾市| 特克斯县| 张家港市| 孝昌县| 原阳县| 营山县|