官术网_书友最值得收藏!

1.1 數據挖掘的基本概念

1.1.1 數據挖掘的概念

數據挖掘(Data Mining,DM)是指從大量的、有噪聲的、不完全的、模糊和隨機的數據中,提取出隱含在其中的、人們事先不知道的、具有潛在利用價值的信息和知識的過程[1]。這個定義包括幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求它是放之四海皆準的知識,僅支持特定的發現問題;所提取到的知識的表示形式可以是概念、規律、規則與模式等。數據挖掘能夠對將來的趨勢和行為進行預測,從而幫助決策者做出科學和合理的決策。例如,通過對公司數據庫系統的分析,數據挖掘可以回答類似“哪些客戶最有可能購買我們公司的什么產品”“客戶有哪些常見的消費模式和消費習慣”等問題。

與數據挖掘相似的概念是知識發現(Knowledge Discovery in Databases,KDD),知識發現是指用數據庫管理系統來存儲數據、用機器學習方法來分析數據,挖掘大量數據背后隱藏的知識的過程。數據挖掘是整個知識發現流程中的一個具體步驟,也是知識發現過程中最重要的核心步驟。

數據挖掘是一個交叉學科,涉及數據庫、人工智能、統計學、機器學習、模式識別、高性能計算、知識工程、神經網絡、信息檢索、信息的可視化等眾多領域,其中數據庫、機器學習、統計學對數據挖掘的影響最大,數據庫為數據挖掘提供數據管理和存儲技術,機器學習和統計學為數據挖掘提供數據分析技術。數據挖掘所采用的算法,一部分是機器學習的理論和方法,如神經網絡、決策樹等;另一部分是基于統計學習理論,如支持向量機、分類回歸樹和關聯分析等。但傳統的機器學習算法的處理對象不是海量數據,因此數據挖掘要將機器學習算法用于海量數據中的知識發現,需要對算法進行改造,使得算法的時空效率達到實用條件。

1.1.2 大數據環境下的數據挖掘

繼互聯網、物聯網、云計算的不斷發展及智能終端的普及,海量復雜多樣的數據呈現出爆發式的增長,標志著“大數據”時代的到來。作為重要的生產因素,大數據已成為蘊含巨大潛在價值的戰略資產,推動著產業升級和崛起,影響著科學思維與研究方法的變革。然而,大數據在依托其豐富的資源儲備和借助強大的計算技術發揮優勢的同時,也帶來了極大的挑戰。海量、動態及不確定的數據使得傳統數據處理系統面臨存儲和計算瓶頸,同時,就如何從復雜的大數據中實時快速地挖掘出有價值的信息和知識,傳統的數據挖掘技術自身受限的功能已無法滿足用戶的需求。因此,大數據環境下需要一種適用技術,即“大數據挖掘”,來應對面臨的挑戰[2]

大數據挖掘是指從體量巨大、類型多樣、動態快速流轉及價值密度低的大數據中挖掘有巨大潛在價值的信息和知識,并以服務的形式提供給用戶。與傳統數據挖掘相比,大數據挖掘同樣是以挖掘有價值的信息和知識為目的,然而就技術發展背景、所面臨的數據環境及挖掘的廣度和深度而言,兩者存在很多差異。

1.技術背景差異

傳統數據挖掘在數據庫、數據倉庫及互聯網發展等背景下,實現了從獨立、橫向到縱向數據挖掘的發展。而大數據挖掘在大數據背景下得益于云計算、物聯網、移動智能終端等技術的產生與發展,具備了充實環境技術條件,基于云計算等相關技術集成,實現了海量數據的挖掘。

2.處理對象的差異

傳統數據挖掘的數據來源主要以某個特定范圍的管理信息系統被動數據的產生為主,外加少數的Web信息系統中由用戶產生的主動數據;數據類型以結構化數據為主,外加少量的半結構化數據或非結構化數據。相比于傳統數據挖掘,大數據挖掘的數據來源更廣、體量更巨大、類型更復雜;采集方式不再局限于被動,采集范圍更全面,吞吐量更高,處理實時且快速,但由于對數據的精確度要求不高,所以數據的冗余度和不確定性較高。

3.挖掘程度差異

大數據挖掘與傳統數據挖掘處理分析數據的廣度、深度也存在差異。在復雜類型、結構及模式的數據交錯融合時,大數據挖掘能利用云平臺集成多種計算模式與挖掘算法對龐雜的數據進行實時處理與多維分析,其處理數據的范圍更廣,挖掘分析更加全面深入。

總體而言,大數據挖掘在大數據環境下,以大數據為來源,依托云計算及大數據相關技術的支撐,利用挖掘工具發現潛在的、有價值的信息和知識,并將結果以云服務的方式提供給用戶。

1.1.3 數據挖掘的特性

在大數據時代,數據的產生和收集是基礎,數據挖掘是關鍵,即數據挖掘是大數據中最關鍵、最有價值的工作。數據挖掘可以用以下3個特性概括[3]

1.應用性

數據挖掘是理論算法和應用實踐的完美結合。數據挖掘源于實際生產生活中應用的需求,挖掘的數據來自具體應用,同時通過數據挖掘發現的知識又要運用到實踐中,輔助實際決策。所以,數據挖掘來自應用實踐,同時服務于應用實踐。

2.工程性

數據挖掘是一個由多個步驟組成的工程化過程。數據挖掘的應用特性決定了數據挖掘不僅是算法分析和應用,還是一個包含數據準備和管理、數據預處理和轉換、挖掘算法開發和應用、結果展示和驗證,以及知識積累和使用的完整過程。而且在實際應用中,典型的數據挖掘過程還是一個交互和循環的過程。

3.集合性

數據挖掘是多種功能的集合。常用的數據挖掘功能包括數據探索分析、關聯規則挖掘、時間序列模式挖掘、分類預測、聚類分析、異常檢測、數據可視化和鏈接分析等。一個具體的應用案例往往涉及多個不同的功能。不同的功能通常有不同的理論和技術基礎,而且每個功能都有不同的算法支撐。

總而言之,數據挖掘源于實踐中的實際應用需求,用具體的應用數據作為驅動,以算法、工具和平臺作為支撐,最終將發現的知識和信息用到實踐中,從而提供量化、合理、可行、能夠產生巨大價值的信息。

1.1.4 數據挖掘的任務和功能

數據挖掘的任務主要分為描述性任務和預測性任務[4,5]。描述性任務刻畫目標數據中數據的一般性質,如通過客戶行為特征,將客戶進行不同類型的聚類劃分。預測性任務在當前數據上進行歸納,以便做出預測。例如,通過一個消費者的消費情況判斷是否會成為自己的重要客戶。

常見的數據挖掘功能包括分類、聚類、關聯分析、數據總結、離群點分析和預測等,其中聚類、關聯分析、數據總結、離群點分析是描述性任務,分類和預測是預測性任務。

1.分類

分類是一種重要的數據分析形式,它找出描述和區分數據類型或概念的模型。這種模型稱為分類器,用于預測分類的類標號。它是一種監督學習,即分類器的學習是在被告知每個訓練元組屬于哪個類的“監督”下進行的。

常見的分類模型包括分類規則、決策樹和神經網絡。

2.聚類

聚類是一個把數據對象劃分成子集的過程,每個子集是一個簇。數據對象根據最大化類內相似性、最小化類間相似性的原則進行聚類。它是一種無監督學習,因為沒有提供類標號信息。

3.關聯分析

若兩個或多個變量的特征值之間存在某種相關性,則稱為關聯。關聯規則反映了事物之間的依賴性或關聯性。關聯分析是指查找和分析出事物與事物之間潛藏的關系規律。

4.數據總結

對數據進行濃縮,給出它的緊湊性描述。數據描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。

5.離群點分析

數據集中可能包含一些數據對象,它們與數據的一般行為或模型不一致。這些數據對象是離群點。大部分的數據挖掘方法將離群點視為噪聲而丟棄。但是,在某些應用(如欺詐檢測)中,罕見事件更讓人感興趣,稱為離群點分析。

6.預測

通過對樣本數據的輸入值和輸出值的關聯性學習,得到預測模型,再利用該模型對未來的輸入值進行輸出值預測。

1.1.5 數據挖掘的對象

數據挖掘是一種通用技術,數據挖掘的對象[6]可以是任何類型的數據。數據可以分為結構化數據、半結構化數據和非結構化數據。在數據挖掘的應用中,數據最基本的形式是結構化數據,即數據庫數據、數據倉庫數據和事務數據,但是目前數據挖掘有向處理非結構化數據發展的趨勢,非結構化數據包括序列數據、圖或網絡數據、空間數據、文本和多媒體數據、萬維網數據等。

1.數據庫數據

數據庫(DB)是依照某種數據模型組織起來,并存放于外部存儲器中的數據集合。

數據庫管理系統(DBMS)是一種操縱和管理數據庫的大型系統軟件,用于建立、使用和維護數據庫。

關系數據庫是當前數據庫技術的主流。在一個給定的應用領域中,所有實體及實體之間聯系的集合構成一個關系數據庫。關系數據庫是表的集合,每個表都包含一組屬性(字段)和元組(記錄)。

當數據挖掘用關系數據庫作為數據源時,可以從數據庫中直接查詢數據挖掘需要的數據,或者對查詢的結果數據進行篩選、轉換和匯總等操作以得到數據挖掘需要的數據。關系數據庫是數據挖掘中最常見、最豐富的信息源,因此它是數據挖掘研究的一種主要數據形式。

2.數據倉庫

數據倉庫是一個面向主題、集成性、穩定性和時變性的數據集合系統,用于支持管理人員的決策。數據倉庫通過數據清理、數據變換、數據集成、數據裝入和定期數據刷新來構造。為便于決策,數據倉庫中的數據圍繞主題(如顧客、商品)組織。數據存儲從時間的角度提供信息,并且通常是匯總的。數據倉庫用稱為數據立方體的多維數據結構建模。

數據倉庫是數據挖掘的最佳數據源,因為在構建數據倉庫的過程中,按照分析的主題已經進行了數據清洗、數據集成和數據轉換等處理,如果數據在導入數據倉庫時已做過預處理,那么數據挖掘時就沒有必要再進行預處理了。

3.事務數據

事務是計算機系統完成的一次交易,如顧客的一次購物、一次航班訂票。事務數據庫的每個記錄代表一個事務。一個事務包含唯一的事務標識號,以及一個組成事務的項的列表。

4.其他類型數據

對于非結構化數據的表述方式,不存在統一的結構模型。各種文檔、圖片、視頻和音頻等都屬于非結構化數據,非結構化數據在互聯網上的信息內容中占據了很大的比例。隨著“互聯網+”戰略的實施,將有越來越多的非結構化數據產生。目前,結構化數據分析挖掘技術已經形成了相對比較成熟的技術體系,而非結構化數據中沒有限定結構形式,表示靈活,蘊含信息豐富,所以非結構化數據挖掘的挑戰更大。因此,在未來的數據分析挖掘中,非結構化數據處理將變得更加重要。

非結構化數據在很多應用中都有顯現,如時間相關或序列數據(如歷史記錄、股票交易數據、時間序列和生物學序列數據)、數據流(如視頻監控和傳感器數據,它們連續播送)、空間數據(如地圖)、工程設計數據(如建筑數據、系統部件或集成電路)、超文本和多媒體數據(包括文本、圖像、視頻和音頻數據)、圖和網狀數據(如社會和信息網絡)和萬維網(包括互聯網提供的矩形、廣泛分布的信息存儲庫)。

在現代數據挖掘中,數據源往往同時包含多個數據類型。一方面,異構數據的數據源可以相互提升和加強,挖掘復雜對象的多個數據源會有更有價值的發現;另一方面,異構數據源的數據清理和數據集成比較困難,增加了挖掘工作的難度。

1.1.6 數據挖掘的過程

1999年,歐盟創建了跨行業的數據挖掘標準流程,即CRISP-DM(Cross Industry Standard Process for Data Mining),提供了一個數據挖掘生命周期的全面評述,包括業務理解、數據理解、數據準備、數據建模、模型評估和部署6個階段[7],如圖1-1所示。

圖1-1 CRISP-DM數據挖掘過程示意圖

第1階段:業務理解,主要任務是深刻理解業務需求,在需求的基礎上制訂數據挖掘的目標和實現目標的計劃。

第2階段:數據理解,主要任務是收集數據、熟悉數據、識別數據的質量問題,并探索引起興趣的子集。

第3階段:數據準備,從收集來的數據集中選擇必要的屬性(因素),并按關聯關系將它們連接成一個數據集,進行數據清洗,即空值和異常值處理、離群值剔除和數據標準化等。

第4階段:數據建模,選擇應用不同的數據挖掘技術,并確定模型最佳的參數。如果通過初步分析發現模型的效果不太滿意,那么要再跳回數據準備階段,甚至數據理解階段。

第5階段:模型評估,對建立的模型進行可靠性評估和合理性解釋,未經過評估的模型不能直接去應用。徹底地評估模型,檢查構造模型的步驟,確保模型可以完成業務目標。如果評估結果沒有達到預想的業務目標,那么要再跳回業務理解階段。

第6階段:部署,根據評估后認為合理的模型,制定將其應用于實際工作的策略,形成應用部署報告。

主站蜘蛛池模板: 海宁市| 乡城县| 汕头市| 洞口县| 莲花县| 韩城市| 孟津县| 昌邑市| 宜昌市| 二连浩特市| 台北市| 丰宁| 达日县| 兴宁市| 锡林郭勒盟| 尚志市| 伽师县| 石棉县| 盘山县| 改则县| 陵水| 衡水市| 梁山县| 嘉峪关市| 堆龙德庆县| 阳春市| 乐平市| 密云县| 高安市| 湾仔区| 准格尔旗| 兰州市| 贵德县| 忻州市| 樟树市| 商水县| 息烽县| 高安市| 繁峙县| 加查县| 两当县|