官术网_书友最值得收藏!

1.3 大數據相關概念

大數據技術,就是從各種類型的數據中快速獲得有價值信息的技術。大數據領域已經涌現出了大量新的技術,它們成為大數據采集、存儲、處理和呈現的有力武器。

1.3.1 大數據關鍵技術

討論大數據技術時,需要首先了解大數據的基本處理流程,主要包括數據采集、存儲、分析和結果呈現的環節。數據無處不在,如互聯網網站、政務系統、零售系統、辦公系統、自動化生產系統、監控攝像頭、傳感器等,每時每刻都在不斷地產生數據。這些分散在各處的數據需要采用相應的設備和軟件進行采集。采集到的數據通常無法直接用于后續的數據分析,因為對于來源更多、類型多樣的數據而言,數據缺失和語義模糊的問題是不可避免的,因而必須采取相應的有效措施來解決這些問題,這就需要一個被稱為“數據預處理”的過程,把數據變成一個可用的狀態。數據預處理以后會被存放到文件系統或數據系統中進行存儲與管理,然后采用數據挖掘工具對數據進行處理分析,最后采用可視化工具為用戶呈現結果。在整個數據處理過程中,還必須注意隱私保護和數據安全問題。

因此,從數據分析全流程的角度,大數據技術主要包括數據采集與預處理、數據存儲和管理、數據處理與分析、數據安全和隱私保護等幾個層面的內容,具體見表1-1。

表1-1 大數據技術的不同層面及其功能

需要指出的是,大數據技術是許多技術的一個集合體,這些技術也并非全部都是新生事物,諸如關系數據庫、數據倉庫、數據采集、數據挖掘、ETL、OLAP、數據隱私和安全、數據可視化等技術是已經發展了多年的技術,在大數據時代得到不斷的補充、完善、提高后又有了新的升華,也可以視為大數據技術的組成部分。

1.3.2 數據類型與數據管理

1.數據類型

如今數據量的激增越來越明顯,各種各樣的數據鋪天蓋地而來,企業選擇相應工具來存儲、分析與處理它們。從Excel、BI工具,到現在新的可視化數據分析工具——大數據魔鏡,數據分析軟件進步越來越快,免費的大數據魔鏡已經可以達到500多種可視化效果和實現數據共享。那么在大數據時代中,新出現了哪些數據類型呢?

1)向互聯網用戶開放的本地數據。過去一些記錄是以模擬形式存在的,或者以數據形式存在,但其存儲在本地,而不是公開數據資源,沒有開放給互聯網用戶,如音樂、照片、視頻、監控錄像等影音資料。現在這些數據不但數據量巨大,并且共享到了互聯網上,面對所有互聯網用戶,其數量之大前所未有。例如,Facebook每天有18億張照片上傳或被傳播,形成了海量的數據。

2)各種傳感器收集的數據。移動互聯網出現后,移動設備的很多傳感器收集了大量的用戶點擊行為數據,例如iPhone有3個傳感器,三星有6個傳感器。它們每天產生了大量的點擊數據,這些數據被某些公司所擁有,形成用戶大量行為數據。

3)地圖數據。電子地圖(如高德、百度、Google地圖)出現后,其產生了大量的流數據,這些數據不同于傳統數據,傳統數據代表一個屬性或一個度量值,但是這些地圖產生的流數據代表著一種行為、一種習慣,這些流數據經頻率分析后會產生巨大的商業價值。基于地圖產生的數據流是一種新型的數據類型,在過去是不存在的。

4)社交行為數據。進入了社交網絡年代,互聯網行為主要由用戶參與創造,大量互聯網用戶創造出海量的社交行為數據,這些數據是過去未曾出現的。其揭示了人們的行為特點和生活習慣。

5)電商數據。電商崛起帶來了大量網上交易數據,包含支付數據、查詢行為、物流運輸、購買喜好、點擊順序,評價行為等,其是信息流和資金流數據。

6)搜索行為數據。傳統的互聯網入口轉向搜索引擎之后,用戶的搜索行為和提問行為聚集了海量數據。單位存儲價格的下降也為存儲這些數據提供了經濟上的可能。

上面所指的大數據不同于過去傳統的數據,其產生方式、存儲載體、訪問方式、表現形式、來源特點等都與傳統數據不同。大數據更接近于某個群體行為數據,它是全面的數據、準確的數據、有價值的數據。這些新類型數據相信大家都很熟悉,它們已經比傳統數據類型更深入地走進了我們生活。

2.數據管理

數據管理是利用計算機硬件與軟件技術對數據進行有效的收集、存儲、處理和應用的過程。其目的在于充分有效地發揮數據的作用,實現數據有效管理的關鍵是數據組織。

隨著計算機技術的發展,數據管理經歷了人工管理、文件系統、數據庫系統三個發展階段。在數據庫系統中所建立的數據結構,更充分地描述了數據間的內在聯系,便于數據修改、更新與擴充,同時保證了數據的獨立性、可靠性、安全性與完整性,減少了數據冗余,故提高了數據共享程度及數據管理效率。

(1)人工管理階段

20世紀50年代中期以前,計算機主要用于科學計算,這一階段數據管理的主要特征如下。

1)不能長期保存數據。在20世紀50年代中期之前,計算機一般在關于信息的研究機構里才能擁有,當時由于存儲設備(紙帶、磁帶)的容量空間有限,都是在做實驗的時候暫存實驗數據,做完實驗就把數據結果打在紙帶上或者磁帶上帶走,所以一般不需要將數據長期保存。

2)數據并不是由專門的應用軟件來管理,而是由使用數據的應用程序自己來管理。作為程序員,在編寫軟件時既要設計程序邏輯結構,又要設計物理結構以及數據的存取方式。

3)數據不能共享。在人工管理階段,可以說數據是面向應用程序的,由于每一個應用程序都是獨立的,一組數據只能對應一個程序,即使要使用的數據已經在其他程序中存在,但是程序間的數據是不能共享的,因此程序與程序之間有大量的數據冗余。

4)數據不具有獨立性。應用程序中只要發生改變,數據邏輯結構或物理結構就相應地發生變化,因而程序員要修改程序就必須都要做出相應的修改,這給程序員的工作帶來了很多負擔。

(2)文件系統階段

20世紀50年代后期到60年代中期,計算機開始應用于數據管理方面。此時,計算機的存儲設備也不再是磁帶和卡片了,硬件方面已經有了磁盤、磁鼓等可以直接存取的存儲設備。軟件方面,操作系統中已經有了專門的數據管理軟件,一般稱為文件系統,文件系統一般由三部分組成:與文件管理有關的軟件、被管理的文件以及實施文件管理所需的數據結構。文件系統階段存儲數據就是以文件的形式來存儲,由操作系統統一管理。文件系統階段也是數據庫發展的初級階段,使用文件系統存儲、管理數據具有以下4個特點。

1)數據可以長期保存。有了大容量的磁盤作為存儲設備,計算機開始被用來處理大量的數據并存儲數據。

2)有簡單的數據管理功能。文件的邏輯結構和物理結構脫鉤,程序和數據分離,這使得數據和程序有了一定的獨立性,減少了程序員的工作量。

3)數據共享能力差。由于每一個文件都是獨立的,當需要用到相同的數據時,必須建立各自的文件,數據還是無法共享,也會造成大量的數據冗余。

4)數據不具有獨立性。在此階段數據仍然不具有獨立性,當數據的結構發生變化時,也必須修改應用程序,修改文件的結構定義;而應用程序的改變也將改變數據的結構。

(3)數據庫系統階段

20世紀60年代后期以來,計算機管理的對象規模越來越大,應用范圍越來越廣泛,數據量急劇增長,同時多種應用、多種語言互相覆蓋地共享數據集合的要求越來越強烈,數據庫技術便應運而生,出現了統一管理數據的專門軟件系統——數據庫管理系統。用數據庫系統來管理數據比文件系統具有明顯的優勢,從文件系統到數據庫系統,標志著數據庫管理技術的飛躍,圖1-2所示為數據庫管理系統的組成。

圖1-2 數據庫管理系統的組成

1.3.3 數據倉庫

(1)數據倉庫的定義

數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受,數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策。

數據倉庫是一個過程而不是一個項目;數據倉庫是一個環境,而不是一件產品。數據倉庫提供用戶用于決策支持的當前和歷史數據,這些數據在傳統的操作型數據庫中很難或不能得到。數據倉庫技術是為了有效地把操作型數據集成到統一的環境中以提供決策型數據訪問的各種技術和模塊的總稱。所做的一切都是為了讓用戶更快更方便地查詢所需要的信息,為用戶提供決策支持。

(2)數據倉庫的特點

1)面向主題。操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。

2)集成的。數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。

3)相對穩定。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期地加載、刷新。

4)反映歷史變化。數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

(3)數據倉庫的組成

1)數據倉庫數據庫。數據倉庫的數據庫是整個數據倉庫環境的核心,是數據存放的地方,提供對數據檢索的支持。相對于操作型數據庫來說,其突出的特點是對海量數據的支持和快速的檢索技術。

2)數據抽取工具。數據抽取工具把數據從各種各樣的存儲方式中拿出來,進行必要的轉化、整理,再存放到數據倉庫內。對各種不同數據存儲方式的訪問能力是數據抽取工具的關鍵,應能生成COBOL程序、MVS作業控制語言(JCL)、UNIX腳本、SQL語句等,以訪問不同的數據。數據轉換包括:刪除對決策應用沒有意義的數據段;轉換到統一的數據名稱和定義;計算統計和衍生數據;給缺值數據賦予缺省值;把不同的數據定義方式統一。

3)元數據。元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類:技術元數據和商業元數據。技術元數據是數據倉庫的設計和管理人員用于開發與日常管理數據倉庫時用的數據,包括數據源信息、數據轉換的描述、數據倉庫內對象和數據結構的定義、數據清理和數據更新時用的規則、源數據到目的數據的映射、用戶訪問權限、數據備份歷史記錄、數據導入歷史記錄、信息發布歷史記錄等。商業元數據從商業業務的角度描述了數據倉庫中的數據,包括業務主題的描述,包含的數據、查詢、報表。

元數據為訪問數據倉庫提供了一個信息目錄,這個目錄全面描述了數據倉庫中都有什么數據、怎么得到和怎么訪問這些數據。元數據是數據倉庫運行和維護的中心,數據倉庫服務器利用它來存儲和更新數據,用戶通過它來了解和訪問數據。

4)訪問工具。為用戶訪問數據倉庫提供手段。包括數據查詢和報表工具、應用開發工具、經理信息系統(EIS)工具、聯機分析處理(OLAP)工具、數據挖掘工具。

5)數據集市(Data Marts)。為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(Subject Area)。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手,以后再用幾個數據集市組成一個完整的數據倉庫。需要注意是,在實施不同的數據集市時,同一含義的字段定義一定要相容,這樣在以后實施數據倉庫時才不會造成大麻煩。

6)數據倉庫管理。數據倉庫管理包括安全和特權管理,跟蹤數據的更新,數據質量檢查,管理和更新元數據,審計和報告數據倉庫的使用和狀態,刪除數據,復制、分割和分發數據,備份和恢復,存儲管理。

7)信息發布系統。把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。基于Web的信息發布系統是應對多用戶訪問的最有效方法。

1.3.4 數據挖掘

1.數據挖掘Data Mining概述

隨著信息科技的進步和網絡的發達、計算機運算能力的增強以及數據存儲技術的不斷改進,人類社會正邁向信息時代。數據的爆炸式增長、廣泛運用和巨大體量使我們的時代成為真正的數據時代。人們迫切需要功能強大和通用的工具,以便從大數據中發現有價值的信息,將這些數據轉換成有用的信息和知識,所獲取的信息和知識可以廣泛用于各種應用,包括商務管理、生產控制、市場分析、工程設計和科學探索等。數據挖掘方法利用了來自許多領域的技術思想,如來自統計學的抽樣估計和假設檢驗,來自人工智能、模式識別和機器學習的搜索方法、建模技術和學習理論,來自包括最優化、進化計算、信息論、信號處理、可視化和信息檢索等的重要支撐。隨著數據量的越來越大,源于高性能分布式并行計算和存儲的技術在大數據挖掘和應用中顯得尤為重要。

許多人把數據挖掘視為另一個流行術語——數據中的知識發現(KDD)的同義詞,而另一些人只是把數據挖掘視為知識發現過程中的一個基本步驟。一般認為,知識發現由以下步驟的迭代序列組成。

● 數據清理——消除噪聲和刪除不一致數據。

● 數據集成——多種數據源可以組合在一起,形成數據集市或數據倉庫。

● 數據選擇——從數據庫中提取與分析任務相關的數據。

● 數據變換——通過匯總或聚集操作,把數據經過變換統一成適合挖掘的形式。

● 數據挖掘——使用智能方法提取數據模式。

● 模式評估——根據某種興趣度量,識別代表知識的真正有趣的模式。

● 知識表示——使用可視化和知識表示技術向用戶提供挖掘的知識。

2.數據挖掘的定義

(1)技術上的定義

數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。這個定義包括好幾層含義:數據源必須是真實的、大量的、含噪聲的;發現的是用戶感興趣的知識;發現的知識要可接受、可理解、可運用;并不要求發現放之四海皆準的知識,僅支持特定的發現問題。與數據挖掘相近的名詞有數據融合、人工智能、商務智能、模式識別、機器學習、知識發現、數據分析和決策支持等。

何為知識?從廣義上理解,數據、信息也是知識的表現形式,但是人們一般把概念、規則、模式、規律和約束等看作知識。人們把數據看作是形成知識的源泉,好像從礦石中采礦或淘金一樣。原始數據可以是結構化的,如關系數據庫中的數據;也可以是半結構化的,如文本、圖形和圖像數據;甚至是分布在網絡上的異構型數據。發現知識的方法可以是數學的,也可以是非數學的;可以是演繹的,也可以是歸納的。發現的知識可以被用于信息管理、查詢優化、決策支持和過程控制等,還可以用于數據自身的維護。因此,數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識、提供決策支持。在這種需求的牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。

這里所說的知識發現,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。實際上,所有發現的知識都是相對的,是有特定前提和約束條件的,是面向特定領域的,同時還要能夠易于被用戶理解。最好能用自然語言表達所發現的結果。

(2)商業上的定義

數據挖掘是一種新的商業信息處理技術,其主要特點是對商業數據庫中的大量業務數據進行抽取、轉換、分析和其他模型化處理,從中提取輔助商業決策的關鍵性數據。

簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據分析本身已經有很多年的歷史,只不過在過去數據收集和分析的目的是用于科學研究,另外,由于當時計算能力的限制,對大數據量進行分析的復雜數據分析方法受到很大限制。現在,由于各行業業務實現了自動化,商業領域產生了大量的業務數據,這些數據不再是為了分析的目的而收集的,而是由于純粹的商業運作而產生。分析這些數據也不再是單純為了研究的需要,更主要是為商業決策提供真正有價值的信息,進而獲得利潤。但所有企業面臨的一個共同問題是:企業數據量非常大,而其中真正有價值的信息卻很少,因此從大量的數據中經過深層分析,獲得有利于商業運作、提高競爭力的信息,就像從礦石中淘金一樣,數據挖掘也因此而得名。

因此,數據挖掘可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。

3.數據挖掘的常用方法

利用數據挖掘進行數據分析常用的方法主要有分類、回歸分析、聚類、關聯規則、特征、變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對數據進行挖掘。

(1)分類

分類是找出數據庫中一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到某個給定的類別。它可以應用到客戶的分類、客戶的屬性和特征分析、客戶滿意度分析、客戶的購買趨勢預測等,如一個汽車零售商將客戶按照對汽車的喜好劃分成不同的類,這樣營銷人員就可以將新型汽車的廣告手冊直接郵寄到有這種喜好的客戶手中,從而大大增加了商業機會。常用的分類方法為決策樹的剪枝分類法。

(2)回歸分析

回歸分析方法反映的是事務數據庫中屬性值在時間上的特征,產生一個將數據項映射到一個實值預測變量的函數,發現變量或屬性間的依賴關系,其主要研究問題包括數據序列的趨勢特征、數據序列的預測以及數據間的相關關系等。它可以應用到市場營銷的各個方面,如客戶尋求與保持、預防客戶流失活動、產品生命周期分析、銷售趨勢預測及有針對性的促銷活動等。常用的回歸分析方法為邏輯回歸分析、時間序列分析等。

(3)聚類

聚類分析是把一組數據按照相似性和差異性分為幾個類別,其目的是使屬于同一類別的數據間的相似性盡可能大,不同類別中數據間的相似性盡可能小。它可以應用到客戶群體的分類、客戶背景分析、客戶購買趨勢預測、市場的細分等。常用的聚類方法有層次聚類分析、劃分聚類分析、以密度為基礎的聚類分析、以模式為基礎的聚類分析。

(4)關聯規則

關聯規則是描述數據庫中數據項之間所存在的關系的規則,即根據一個事務中某些項的出現可導出另一些項在同一事務中也出現,即隱藏在數據間的關聯或相互關系。在客戶關系管理中,通過對企業的客戶數據庫里的大量數據進行挖掘,可以從大量的記錄中發現關聯關系,找出影響市場營銷效果的關鍵因素,為產品定位、定價與定制客戶群,客戶尋求、細分與保持,市場營銷與推銷,營銷風險評估和詐騙預測等決策支持提供參考依據。常用的關聯規則方法有多維度關聯規則、多階層關聯規則等。

(5)特征分析

特征分析是從數據庫中的一組數據中提取出關于這些數據的特征式,這些特征式表達了該數據集的總體特征。如營銷人員通過對客戶流失因素的特征提取,可以得到導致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預防客戶的流失。

(6)變化和偏差分析

偏差包括很大一類潛在有趣的知識,如分類中的反常實例、模式的例外、觀察結果對期望的偏差等,其目的是尋找觀察結果與參照量之間有意義的差別。在企業危機管理及其預警中,管理者更感興趣的是那些意外規則。意外規則的挖掘可以應用到各種異常信息的發現、分析、識別、評價和預警等方面。

(7)Web頁挖掘

隨著Internet的迅速發展及Web的全球普及,Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web的海量數據進行分析,收集政治、經濟、政策、科技、金融、各種市場、競爭對手、供求關系、客戶等有關的信息,集中精力分析和處理那些對企業有重大或潛在重大影響的外部環境信息和內部經營信息,并根據分析結果找出企業管理過程中出現的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。

4.數據挖掘的功能

數據挖掘通過預測未來趨勢及行為,做出前攝的、基于知識的決策。數據挖掘的目標是從數據庫中發現隱含的、有意義的知識,主要有以下5類功能。

(1)自動預測趨勢和行為

數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。一個典型的例子是市場預測問題,數據挖掘使用過去有關促銷的數據來尋找未來投資中回報最大的用戶,其他可預測的問題包括預報破產以及認定對指定事件最可能做出反應的群體。

(2)關聯分析

數據關聯是數據庫中存在的一類重要的可被發現的知識。若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯可分為簡單關聯、時序關聯、因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。有時并不知道數據庫中數據的關聯函數,即使知道也是不確定的,因此關聯分析生成的規則帶有可信度。

(3)聚類

數據庫中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統的模式識別方法和數學分類學。20世紀80年代初,Mchalski提出了概念聚類技術及其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統技術的某些片面性。

(4)概念描述

概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區別性描述的方法很多,如決策樹方法、遺傳算法等。

(5)偏差檢測

數據庫中的數據常有一些異常記錄,從數據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。

主站蜘蛛池模板: 凤城市| 昭觉县| 天台县| 安龙县| 延津县| 黎川县| 九江市| 铁力市| 霸州市| 贵定县| 三门峡市| 肇东市| 房产| 隆回县| 蛟河市| 武功县| 临沭县| 隆子县| 遂溪县| 聂荣县| 依安县| 黄梅县| 通山县| 平顶山市| 马关县| 乐东| 永安市| 大田县| 饶平县| 冕宁县| 江口县| 弥渡县| 东兰县| 光山县| 南昌市| 沙洋县| 辰溪县| 六盘水市| 柘城县| 上蔡县| 镇赉县|