- 物聯網追溯系統及數據處理
- 曹振麗
- 13字
- 2019-06-19 16:01:10
第2章 數據流聚類方法的研究
2.1 簡介
近年來,隨著智慧農業、精準農業、農業物聯網的迅速發展,各個傳感器節點監測的數據產生了源源不斷的數據流,數據流中的每個元素都屬于潛在的、未知的數據,這些高速、持續、實時、無限的數據流是農業大數據的重要組成部分。大量未知的信息蘊含于數據流中,人們若想充分利用這些看似毫不相關,甚至支離破碎的大量數據,就需要針對其特征進行深層次的數據挖掘,才能從中提取出真知灼見,產生大智慧。
所謂數據挖掘,是指從大量無規律的數據中挖掘出潛在的、有價值的、有意義的、可理解的、可解釋的模式,進而發現有用的知識,并得出時間上的趨向和內在關聯,從而實現為用戶提供問題求解層次的決策支持能力。聚類分析是數據挖掘的一個子領域,通過使用數學理論和方法將數據集按照一定的度量標準劃分成不同的組,適合于用來探討樣本之間的相互關系,從而對樣本結構進行初步的評價,是大數據預處理的一個中間環節。由聚類所生成的簇是一組數據對象的集合,聚類的結果使得同一組內的樣本相似度盡可能高,不同組樣本相異度盡可能高。聚類分析是數據挖掘分析中的熱點研究領域,通過聚類分析,對數據稀疏或密集的區域進行區分識別,從而找出數據間的內在聯系和分布規律,在模式識別、氣象分析、天氣預報等領域得到了廣泛的應用,具有重要的理論意義和實用價值。
數據流的聚類分析都是由傳統的靜態聚類方法演變而來的,對數據集中的元素進行聚類,確定它們之間的關系,多用距離和相似度來度量。
類的定義描述如下。
?xi,xj∈X,dij為元素xi,xj間的距離,閾值T 為給定的一個正數, X 為元素的集合。若dij≤T,則稱X 對于閾值T 構成一個類。若集合X 中任意兩個元素的相似度用距離dij來度量,則有dij≥0, dij≤dik+dkj, dij=d ji,常用的距離有名氏距離、馬氏距離、杰氏距離、斜交空間距離等。若集合X 中任意兩個元素的相似度用相似系數來度量,則集合中越相似的元素,相似系數的絕對值越接近1,不相似的元素間的相似系數接近0。
傳統的聚類方法主要有如下幾種:基于劃分的聚類方法、基于網格的聚類方法、基于密度的聚類方法、基于模型的聚類方法、基于層次的聚類方法等,每種聚類方法各有其優缺點。
基于劃分的聚類方法是將含有n個樣本的數據集劃分成m組,m≤n,每個組代表一個簇,劃分的組至少要包含一個樣本,每個樣本只能屬于一個組。要構建的劃分數目m確定后,先確定一個初始劃分,利用迭代不斷重新定位,通過在簇之間的移動來優化劃分。其中,較為經典的算法是K均值算法和K中心點算法。大部分基于劃分的聚類方法,利用樣本間的距離進行度量,導致聚類簇的性質受限,只能發現球形的聚簇。
基于網格的聚類方法是把樣本空間量化為數量有限的單元,形成網格結構。系統的聚類操作都是在該量化空間上進行的,處理速度快是該算法的優點。處理時間取決于量化空間中每一維的單元數。缺點是只是對垂直點、水平點、邊界點的聚類效果較好,較為經典的算法有Sting算法、WaveCluster算法等。
基于密度的聚類方法的核心思想是當鄰近區域的數據點數超過了某個閾值就繼續聚類。該方法能發現任意形狀的聚簇,可過濾噪聲點、孤立點數據,較為經典的算法有基于密度的增長聚類算法DBSCAN、成簇排序的OPTICS算法。
基于層次的聚類方法按照方向來分,可分為自頂向下的分裂、自底向上的合并(凝聚)兩種,其優點是動態建模,可以保存概要數據。聚類方法簡單,能識別出形狀復雜、不同大小的聚類,能找到孤立點。在層次聚類方法中,程序需要根據一定的相似性衡量標準分割不相似部分,或合并相似部分,較為經典的算法如BIRCH算法、CURE算法、CluStream算法等,尤其是CluStream算法對數據流分兩步聚類而被人們廣泛采用。
基于模型的聚類方法假設數據集由某種潛在的概率分布所生成,用數據集來擬合某個數據模型,常用的、經典的基于模型的聚類方法有AutoClass、CLASSIT等。
由于數據流的特性,傳統的數據挖掘技術無法直接應用于數據流挖掘中,人們在此基礎上開始研究大數據背景下的數據流挖掘技術,以便找出分布未知的數據流中潛在的價值。數據流聚類與傳統的數據聚類存在很大的差別,要求實時、高效處理,對數據流掃描一次完成聚類。
對于傳感器采集到的數據流,不僅要監測是否發生變化,而且要能對監測到的數據流區分噪聲變化與顯著性變化。由于數據流采集的過程中不可避免地會引入噪聲數據,若是在預處理環節不進行處理,則會對數據流后期的分析產生較大影響,使其分析結果不準確,甚至偏離真實的分布規律。此外,對于聚類的異常數據,可以對數據流進行追溯查詢,找出問題的原因所在,因此,聚類分析的結果對進一步分析數據的特征尤為重要。
本研究的背景是對豬舍環境進行實時監測,在豬舍不同位置安放同種類型的傳感器,由于各種環境因素的自身特性,對于同一豬舍的不同位置的同種類型的傳感器所采集到的環境信息也不同。為了對豬舍采集到的數據流進行深入分析,首先對其進行聚類,然后在聚類的基礎上進一步分析和挖掘其內部特征。