官术网_书友最值得收藏!

第三節(jié) 大數(shù)據(jù)概念的界定

究竟何為大數(shù)據(jù)?“大數(shù)據(jù)”一詞可以從字面上理解為“巨大的數(shù)據(jù)量”。Manyika等認為“大數(shù)據(jù)是指數(shù)據(jù)的集合,其大小已經(jīng)超出了現(xiàn)有典型數(shù)據(jù)庫獲取、存儲、管理和分析數(shù)據(jù)的能力”。達到什么程度的數(shù)據(jù)才可以叫作大數(shù)據(jù)?目前尚未形成一個普適性的定義。一般認為,大數(shù)據(jù)的量級應該是“太字節(jié)”,即2的40次方。當數(shù)據(jù)規(guī)模非常巨大達到某種程度時,會使數(shù)據(jù)呈現(xiàn)某些有價值的特性,而由于數(shù)據(jù)體量較大,這些特性無法通過傳統(tǒng)的數(shù)據(jù)處理技術(shù)進行歸納分析,需要新的技術(shù)進行挖掘與分析。因此,大數(shù)據(jù)不僅指規(guī)模巨大的數(shù)據(jù),而且是一種分析處理龐大數(shù)據(jù)的技術(shù)。涂子沛在其《大數(shù)據(jù)》一書中認為“大數(shù)據(jù)”是指一般的軟件工具難以捕捉、管理和分析的大容量數(shù)據(jù),以“太字節(jié)”為單位。“大數(shù)據(jù)”之大,不僅在于容量之大,更深層次的意義在于:因為人類分析和使用的數(shù)據(jù)量呈爆炸式增長,通過對海量大數(shù)據(jù)的交換、整合、挖掘和分析,可以發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,由此帶來“大知識”“大科技”“大利潤”和“大發(fā)展”。

本節(jié)將從理論、技術(shù)、實踐三個層面具體論述大數(shù)據(jù)的概念,如圖1-2所示。

圖1-2 大數(shù)據(jù)概念的層面

一、理論層面

目前尚未有權(quán)威機構(gòu)對大數(shù)據(jù)的概念進行統(tǒng)一界定,因此存在多個版本的定義。

1. John Rauser亞馬遜網(wǎng)絡(luò)服務(Amazon Web Services, AWS)大數(shù)據(jù)科學家

大數(shù)據(jù)就是任何超過了一臺計算機處理能力的龐大數(shù)據(jù)量。

2. 麥肯錫

大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行采集、存儲、管理和分析的數(shù)據(jù)集合。

3. 維基百科

巨量資料(big data),或稱大數(shù)據(jù),指的是所涉及的數(shù)據(jù)量大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、處理并整理成為促進企業(yè)經(jīng)營更積極決策的資訊。

4. 研究機構(gòu)Gartner

“大數(shù)據(jù)”是使用高效的信息處理方式以具備更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,“大數(shù)據(jù)”是指無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了迫使用戶采用非傳統(tǒng)處理方法處理的超出正常處理范圍及大小的數(shù)據(jù)集,其價值在于提高數(shù)據(jù)使用者的最終決策力(圖1-3)。

圖1-3 大數(shù)據(jù)的定義

5. 互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)

大數(shù)據(jù)是為更經(jīng)濟地從高頻率的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值而設(shè)計的新一代架構(gòu)與技術(shù)。

6. 《互聯(lián)網(wǎng)周刊》

“大數(shù)據(jù)”的概念遠遠超過了海量數(shù)據(jù)及處理數(shù)據(jù)的技術(shù),或是類似的“4個V”的簡單理解,而是涵蓋了人們只有在基于大規(guī)模數(shù)據(jù)能夠做的事情,這些在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是根本無法實現(xiàn)的。也就是說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對大規(guī)模數(shù)據(jù)進行分析,獲取有巨大價值的產(chǎn)品及服務,或深刻的洞見,最后形成變革之力。

7. 《大數(shù)據(jù)時代的歷史機遇——產(chǎn)業(yè)變革與數(shù)據(jù)科學》

“大數(shù)據(jù)”是在多樣的或者大量的數(shù)據(jù)中,迅速獲取信息的能力。前面幾個定義都是從大數(shù)據(jù)本身出發(fā),我們的定義更關(guān)心大數(shù)據(jù)的功用,它能幫助大家干什么。在這個定義中,重心是“能力”。大數(shù)據(jù)的核心能力是發(fā)現(xiàn)規(guī)律和預測未來。

上述定義基本上都是基于大數(shù)據(jù)內(nèi)涵本身,但在現(xiàn)實中,更重要的是大數(shù)據(jù)的價值與應用。因此下文將從大數(shù)據(jù)的定義、特征出發(fā),了解各行各業(yè)對大數(shù)據(jù)的整體描繪和定性分析,挖掘大數(shù)據(jù)的獨特價值,洞悉大數(shù)據(jù)的未來發(fā)展趨勢,并從數(shù)據(jù)安全的角度重新審視數(shù)據(jù)的合理有效使用問題。

(一)特征定義

大數(shù)據(jù)作為數(shù)據(jù)本身具備三個特點,一是廣泛存在性,即絕大多數(shù)產(chǎn)品與行為均可產(chǎn)生數(shù)據(jù),是否記錄主要取決于技術(shù)能力與成本考量;二是非獨占性,即數(shù)據(jù)可被多次使用,尤其是公開的數(shù)據(jù)可以被其他人所使用;三是多認知性,即根據(jù)使用者的不同,同樣的數(shù)據(jù)會產(chǎn)生不同的理解和使用方式。

而“大”為之帶來的特點則是體量巨大,處理速度較快、數(shù)據(jù)類型多樣、商業(yè)價值高和在線化。2001年2月,梅塔集團分析師道格·萊尼發(fā)表了《3D數(shù)據(jù)管理:控制數(shù)據(jù)容量、處理速度及數(shù)據(jù)種類》的研究報告,對大數(shù)據(jù)提出“3D數(shù)據(jù)管理”的看法,即數(shù)據(jù)成長將朝三個方向發(fā)展,分別為數(shù)據(jù)即時處理的速度(velocity)、數(shù)據(jù)格式的多樣化(variety)與數(shù)據(jù)量的規(guī)模(volume),被歸納為“3V特征”。之后,隨著資訊科技的進步,數(shù)據(jù)量的復雜程度越來越高,“3V”已經(jīng)不足以形容新時代的大數(shù)據(jù),因此在2012年,不僅萊尼提出調(diào)整現(xiàn)有的3V分析框架,而且包括高科技公司IBM、國際調(diào)查機構(gòu)Gartner、IDC等紛紛對大數(shù)據(jù)提出新的論述,在原本的速度、多樣化與規(guī)模三個特征上,增加價值性(value)和在線的(online)兩個特征。

大數(shù)據(jù)的五個特征聯(lián)系緊密、協(xié)同交替,如圖1-4所示。

圖1-4 大數(shù)據(jù)的特征

(1)數(shù)據(jù)體量(volume)巨大,一般數(shù)據(jù)庫的大小在TB級別,而大數(shù)據(jù)的起始計量單位在PB(1 PB=1 024 TB)級別,有的甚至躍升至EB、ZB級別,包括采集、存儲和計算的量都非常大。百度資料表明,其新首頁導航每天需要提供的數(shù)據(jù)超過1.5 PB,這些數(shù)據(jù)如果打印出來將超過5 000億張A4紙。有資料證實,到目前為止,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量僅為200 PB。

(2)數(shù)據(jù)類型(variety)繁多,有結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),具體表現(xiàn)為圖片、地理位置信息、網(wǎng)絡(luò)日志、視頻、音頻等,其中個性化數(shù)據(jù)占絕大多數(shù)。多類型的數(shù)據(jù)對數(shù)據(jù)處理能力的要求更高,已沖破了之前所限定的結(jié)構(gòu)化數(shù)據(jù)的范疇。

(3)處理速度(velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實時處理與分析,這與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。數(shù)據(jù)體量的增大對數(shù)據(jù)的處理速度、時效性提出了更高的要求,如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能要求實時完成推薦。而大數(shù)據(jù)技術(shù)正好能滿足這一需求,這也是其區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。

(4)價值密度低(value)。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應用,信息感知無處不在,大量信息的價值密度很低,即盡管數(shù)據(jù)量大,類型多,處理速度快,但真正有價值的數(shù)據(jù)卻很少。以視頻為例,1小時的視頻,在持續(xù)不間斷的監(jiān)控過程中,有價值的數(shù)據(jù)可能只有一兩秒。如何結(jié)合業(yè)務邏輯并通過強大的機器算法來挖掘數(shù)據(jù)價值,是大數(shù)據(jù)時代亟須解決的問題。

(5)數(shù)據(jù)是在線的(online),即隨時能調(diào)用和計算的,這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)最大的特征。在互聯(lián)網(wǎng)高速發(fā)展的背景下,數(shù)據(jù)資源不僅僅是體量大,更重要的是表現(xiàn)出在線這一顯著特征。數(shù)據(jù)只有在線,即數(shù)據(jù)在與產(chǎn)品用戶或者客戶產(chǎn)生連接的時候才有意義。如用戶在使用某互聯(lián)網(wǎng)應用時,其行為能夠及時地傳給數(shù)據(jù)使用方,數(shù)據(jù)使用方通過數(shù)據(jù)分析或者數(shù)據(jù)挖掘進行加工,對該應用的推送內(nèi)容進行優(yōu)化,把用戶最想看到的內(nèi)容推送給用戶,就能提升用戶的使用體驗。

此外,業(yè)界還有人總結(jié)出大數(shù)據(jù)的其他特征,如數(shù)據(jù)準確性(veracity)高,隨著社交數(shù)據(jù)、商業(yè)交易與應用數(shù)據(jù)等新型數(shù)據(jù)源的興起,企業(yè)越來越需要有效的信息以確保其真實性及安全性;存活性(viability)低,是指特定情況下的大數(shù)據(jù)具有很強的時效性。

與傳統(tǒng)數(shù)據(jù)服務相比,大數(shù)據(jù)服務擁有來自企業(yè)內(nèi)部、外部市場及環(huán)境等不同來源的海量數(shù)據(jù),通過傳感器采集、互聯(lián)網(wǎng)抓取等方式獲取。快速發(fā)展的分布式計算及多樣的數(shù)據(jù)分析模型使海量數(shù)據(jù)處理成為可能(圖1-5)。

圖1-5 傳統(tǒng)數(shù)據(jù)服務與大數(shù)據(jù)服務的不同

(二)價值探討

隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)技術(shù)開始廣泛應用于越來越多的領(lǐng)域,但只有了解大數(shù)據(jù)的價值,了解大數(shù)據(jù)究竟會如何改變生活才能更好地利用大數(shù)據(jù)。因此,需要結(jié)合時代與社會背景來具體分析大數(shù)據(jù),理解它如何在時代變革中發(fā)揮作用。

1. 技術(shù)變革

大數(shù)據(jù)的處理與分析正成為新興信息技術(shù)應用融合的結(jié)點,并持續(xù)推動信息產(chǎn)業(yè)高速增長。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、電子商務等是新一代信息技術(shù)的應用形態(tài),這些應用會不斷地產(chǎn)生即時數(shù)據(jù),成為大數(shù)據(jù)的重要來源。云計算技術(shù)則為這些海量、多樣化的大數(shù)據(jù)提供存儲和運算平臺,并通過分析優(yōu)化,將結(jié)果反饋到應用中,使其創(chuàng)造出巨大的經(jīng)濟和社會價值。大數(shù)據(jù)價值的實現(xiàn)呼喚新技術(shù)、新產(chǎn)品、新服務、新業(yè)態(tài)的產(chǎn)生。這在硬件與集成設(shè)備領(lǐng)域表現(xiàn)為對芯片、存儲性能提出更高的要求,并催生一體化數(shù)據(jù)存儲處理服務器、內(nèi)存計算等市場;在軟件與服務領(lǐng)域表現(xiàn)為,引發(fā)了數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。

2. 行業(yè)變革

大數(shù)據(jù)日益成為提高企業(yè)核心競爭力的關(guān)鍵因素,不同行業(yè)的企業(yè)決策正在由“業(yè)務驅(qū)動”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動”。對大數(shù)據(jù)的分析可以幫助企業(yè)為消費者提供更加快速和個性化的服務;可以為商家制定精準營銷的策略提供決策支持;在公共事業(yè)領(lǐng)域,大數(shù)據(jù)在促進經(jīng)濟發(fā)展、維護社會穩(wěn)定等方面起著重要作用。各行各業(yè)將在大數(shù)據(jù)技術(shù)的指導下,重新定義行業(yè)的未來,這將引發(fā)全行業(yè)的變革。

3. 思維變革

在大數(shù)據(jù)時代,科學研究方法將發(fā)生重大改變。抽樣調(diào)查不再是社會科學研究中普遍采取的方法,而是通過實時監(jiān)測研究對象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù),進行挖掘分析,揭示出規(guī)律性的東西,提出研究結(jié)論和對策。由于采集、存儲、分析數(shù)據(jù)能力的提高,大數(shù)據(jù)時代下我們可以收集全體數(shù)據(jù)而非隨機樣本。當我們掌握了海量數(shù)據(jù)時,精確性就不那么重要了,因為我們足以掌握事情的發(fā)展趨勢。同時,我們不再關(guān)注數(shù)據(jù)之間的因果關(guān)系,而是僅僅從數(shù)據(jù)中發(fā)現(xiàn)相關(guān)關(guān)系,讓數(shù)據(jù)自己“發(fā)聲”。如此的相關(guān)關(guān)系分析法能夠更快、更準確地處理數(shù)據(jù)之間的關(guān)系,而且不易受偏見的影響,提高了分析決策的效率。探求數(shù)據(jù)價值取決于把握數(shù)據(jù)的人,關(guān)鍵是人的數(shù)據(jù)思維,與其說是大數(shù)據(jù)創(chuàng)造了價值,不如說是大數(shù)據(jù)思維觸發(fā)了新的價值增長。

從哲學意義上說,大數(shù)據(jù)的價值來自“大成智慧”。每個數(shù)據(jù)來源都有一定的片面性和局限性,只有整合各類原始數(shù)據(jù),才能體現(xiàn)事物的全貌。事物的本質(zhì)與規(guī)律隱藏在各種原始數(shù)據(jù)之中。不同的數(shù)據(jù)能對同一個問題提供不同角度的互補信息,可以幫助更深入地理解相關(guān)問題。因此匯集盡量多種來源的數(shù)據(jù)是大數(shù)據(jù)分析的關(guān)鍵。

數(shù)據(jù)科學是數(shù)學(統(tǒng)計、代數(shù)、拓撲等)、計算機科學、基礎(chǔ)科學和各種應用科學融合的結(jié)果。大數(shù)據(jù)能不能出智慧,關(guān)鍵在于對多種數(shù)據(jù)源的集成和融合。發(fā)展大數(shù)據(jù)的目標就是要獲得協(xié)同融合的“無縫智慧”,單靠一種數(shù)據(jù)源會導致片面性。數(shù)據(jù)的開放共享是決定大數(shù)據(jù)成敗的重要前提。大數(shù)據(jù)研究與應用要改變過去各部門和各學科相互分割、獨立發(fā)展的傳統(tǒng)思路,而是強調(diào)不同部門、不同學科的協(xié)作。

(三)未來展望

大數(shù)據(jù)的未來應用前景是非常光明的。雖然目前無法準確預測大數(shù)據(jù)最終會將人類社會帶往哪種形態(tài),但只要發(fā)展的腳步還在繼續(xù),因大數(shù)據(jù)而產(chǎn)生的變革浪潮將會波及這個星球的每一個角落。

未來大數(shù)據(jù)應用中一個難以繞開的問題就是用戶隱私問題。如被央視曝光過的羅維鄧白氏和分眾無線涉及侵犯用戶隱私。到目前為止,中國還沒有出臺專門的法律法規(guī)來定義用戶隱私,必須利用其他相關(guān)法律法規(guī)來解釋有關(guān)問題。但隨著民眾個人隱私保護意識的日益增強,在進行大數(shù)據(jù)分析時必須遵循合法合規(guī)地獲取、分析及應用數(shù)據(jù)的原則。2012年3月,Gartner發(fā)表了一份題為Information Security is Becoming a Big Data Analytics Problem的報告,表示信息安全問題正在變成一個大數(shù)據(jù)分析問題,大規(guī)模的安全數(shù)據(jù)需要被有效地關(guān)聯(lián)、分析和挖掘,并預測未來將出現(xiàn)安全分析平臺,以及部分企業(yè)在未來5年將出現(xiàn)一個新的崗位——“安全分析師”或“安全數(shù)據(jù)分析師”。

對于大數(shù)據(jù)安全分析而言,最關(guān)鍵的不在于大數(shù)據(jù)本身,而在于對這些數(shù)據(jù)的分析方法。大數(shù)據(jù)安全分析可以使用大數(shù)據(jù)分析通用的技術(shù)與方法,但是當具體應用到網(wǎng)絡(luò)安全領(lǐng)域的時候,還必須考慮到安全數(shù)據(jù)自身獨有的特點及安全分析的最終目標,只有這樣,大數(shù)據(jù)安全分析的應用才更有價值。例如,在進行異常行為分析,或者惡意代碼分析和APT(高級持續(xù)性威脅)攻擊分析的時候,先分析模型才是最重要的。其次,才是考慮如何利用大數(shù)據(jù)分析技術(shù)(例如,并行計算、實時計算、分布式計算)來實現(xiàn)這個分析模型。

二、技術(shù)層面

大數(shù)據(jù)技術(shù)是大數(shù)據(jù)價值實現(xiàn)的手段和保障,下文將從數(shù)據(jù)采集、導入與預處理、統(tǒng)計分析和數(shù)據(jù)解釋四個步驟來具體論述大數(shù)據(jù)的分析過程。

(一)數(shù)據(jù)采集

數(shù)據(jù)采集是指利用多個數(shù)據(jù)庫來接收各種客戶端(Web、APP或者傳感器形式等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。數(shù)據(jù)采集是大數(shù)據(jù)處理流程的基礎(chǔ),目前常用的采集手段有條形碼技術(shù)、射頻識別技術(shù)(radio frequency identification, RFID)等。在大數(shù)據(jù)的采集過程中,面臨的一個主要挑戰(zhàn)是并發(fā)數(shù)高,如火車票售票網(wǎng)站、亞馬遜、淘寶這樣的網(wǎng)站可能同時訪問與操作的用戶數(shù)以萬計,它們并發(fā)的訪問量在峰值時達到上百萬,需要在采集端部署大量數(shù)據(jù)庫才能支撐。因此,需要深入地思考和設(shè)計如何在這些數(shù)據(jù)庫之間進行負載均衡。

(二)導入與預處理

數(shù)據(jù)導入與預處理的主要任務是對采集到的數(shù)據(jù)進行適當?shù)那逑础⑷ピ搿⒊槿『图伞R话愣裕ㄟ^在采集端部署大量數(shù)據(jù)庫能夠采集到海量的數(shù)據(jù),但是通過各種渠道獲取的數(shù)據(jù)類型非常復雜,給后續(xù)的數(shù)據(jù)分析造成了困難。要想對這些海量數(shù)據(jù)進行有效的分析,應該將這些來自前端的數(shù)據(jù)導入一個集中的大型分布式數(shù)據(jù)庫或分布式存儲集群,經(jīng)過數(shù)據(jù)處理環(huán)節(jié)后,數(shù)據(jù)結(jié)構(gòu)變得單一而且易于處理。除此之外,有必要使用聚類分析或者關(guān)聯(lián)分析等方法對數(shù)據(jù)進行去噪及清洗,從而保證數(shù)據(jù)的質(zhì)量與可靠性。導入與預處理過程的主要問題是導入的數(shù)據(jù)量大,每秒鐘的導入量常常會達到百兆、千兆,甚至更高級別的數(shù)據(jù)。

(三)統(tǒng)計分析

統(tǒng)計分析是大數(shù)據(jù)處理流程中最為關(guān)鍵的部分,也是發(fā)現(xiàn)數(shù)據(jù)價值的主要環(huán)節(jié)。由于大數(shù)據(jù)具有多樣性特點,僅采用傳統(tǒng)的數(shù)據(jù)挖掘、機器學習、智能計算等數(shù)據(jù)分析方法已無法滿足大數(shù)據(jù)時代對算法提出的快速高效等要求。因此,需要利用新技術(shù)對大數(shù)據(jù)進行有效的處理分析。其中主要使用分布式數(shù)據(jù)庫,或是分布式計算集群等工具對存儲的大規(guī)模數(shù)據(jù)進行普通的分類匯總及簡單分析,從而滿足大部分的基本分析需求。有些即時需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而Hadoop則被用來處理一些基于半結(jié)構(gòu)化或批處理的數(shù)據(jù)。統(tǒng)計分析的主要挑戰(zhàn)就是關(guān)聯(lián)的數(shù)據(jù)量大,其對系統(tǒng)資源,尤其是I/O會有極大的占用,因此亟待提高基礎(chǔ)設(shè)備的性能。

大數(shù)據(jù)統(tǒng)計分析具體可以概括為以下四個基本方面。

一是可視化分析(analytic visualizatons),這是用戶最基本的要求。因為可視化分析可以直接呈現(xiàn)大數(shù)據(jù)的特點,并且非常容易為讀者所接受,使得數(shù)據(jù)分析解讀如同看圖說話一樣簡明。

二是數(shù)據(jù)挖掘算法(data mining algorithms),這是大數(shù)據(jù)分析的理論核心部分。基于不同數(shù)據(jù)類型與格式需要多種各異的算法才能更科學地展現(xiàn)出數(shù)據(jù)本身具備的特點,才能深入數(shù)據(jù)內(nèi)部,挖掘出數(shù)據(jù)應有的價值。與此同時,基于大部分數(shù)據(jù)的時效性特征,數(shù)據(jù)挖掘算法對于迅速處理數(shù)據(jù)而言至關(guān)重要,否則大數(shù)據(jù)的價值就會難以衡量。

三是預測性分析(predictive analytic capabilities),這是大數(shù)據(jù)分析最核心的應用之一。該種分析從海量數(shù)據(jù)中勘探出某些特征,在此基礎(chǔ)上建立科學的模型,并隨后通過將新數(shù)據(jù)導入模型以預測未來可能的結(jié)果。

四是語義引擎(semantic engines)。大數(shù)據(jù)時代下數(shù)據(jù)類型更加多樣化,非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn)帶來了挑戰(zhàn),需要用新的技術(shù)加以解決。而“語義引擎”能夠從“文檔”中智能提取信息,如從用戶的搜索關(guān)鍵詞、標簽關(guān)鍵詞或其他輸入語義中分析并判斷用戶的需求,能實現(xiàn)更好的用戶體驗和精準營銷,提高數(shù)據(jù)分析的效率。

(四)數(shù)據(jù)解釋

解釋與演示大數(shù)據(jù)的分析結(jié)果是數(shù)據(jù)解釋的主要任務。不合適的數(shù)據(jù)顯示結(jié)果會困擾和誤導用戶。在大數(shù)據(jù)時代,基于文本形式及屏幕輸出的傳統(tǒng)方式已不再適用,因此有必要通過數(shù)據(jù)可視化、人機交互等新型技術(shù)將分析結(jié)果生動形象地展示給用戶,以幫助用戶更加清晰地了解整個數(shù)據(jù)處理流程和最終結(jié)果。

三、實踐層面

大數(shù)據(jù)的價值最終體現(xiàn)在實際運用中。下面將分別從互聯(lián)網(wǎng)大數(shù)據(jù)、政府大數(shù)據(jù)、企業(yè)大數(shù)據(jù)和個人大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)時代的美好藍圖。

(一)互聯(lián)網(wǎng)大數(shù)據(jù)

據(jù)IDC預測,到2020年全球?qū)⒖偣矒碛?5 ZB的數(shù)據(jù)量。互聯(lián)網(wǎng)是大數(shù)據(jù)發(fā)展的前沿陣地,隨著Web 2.0時代的發(fā)展,人們似乎都習慣了將自己的生活通過網(wǎng)絡(luò)進行數(shù)據(jù)化,加速了大數(shù)據(jù)時代的來臨。互聯(lián)網(wǎng)數(shù)據(jù)以每年50%的速度增長,每兩年便將翻一番,目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。

互聯(lián)網(wǎng)領(lǐng)域大數(shù)據(jù)應用的典型代表可以簡要歸納如下。

1. 用戶行為數(shù)據(jù)

用戶行為數(shù)據(jù)主要是通過在手機移動端、智能穿戴設(shè)備、智能家居、社交網(wǎng)站等客戶端采集此類數(shù)據(jù),進行用戶的行為習慣與喜好分析,從而實現(xiàn)內(nèi)容推薦、精準廣告投放、產(chǎn)品優(yōu)化等目的。微信在其朋友圈逐步投放廣告,也是其利用用戶行為數(shù)據(jù)進行精準營銷的實踐之一。

2. 用戶消費數(shù)據(jù)

用戶消費數(shù)據(jù)主要是通過電商平臺、導購網(wǎng)站上的交易數(shù)據(jù)、瀏覽記錄來實現(xiàn)對產(chǎn)品的精準營銷以及對用戶的信用記錄分析,從而實現(xiàn)更精準地開展促銷活動,評估用戶的信用等級并協(xié)助其理財?shù)裙δ堋0⒗锛瘓F憑借旗下的淘寶、天貓等購物平臺收集了大量的用戶交易數(shù)據(jù)和信用數(shù)據(jù),能夠?qū)τ脩舻南M習慣做出預測,在合適的時點進行大規(guī)模的促銷,“雙十一”購物節(jié)的成功就是很好的例子。同時,螞蟻金融還推出了信用評估體系——芝麻信用分,并在此基礎(chǔ)上開發(fā)了消費貸款產(chǎn)品——花唄,為其涉足互聯(lián)網(wǎng)金融領(lǐng)域奠定基礎(chǔ)。

3. 用戶地理位置數(shù)據(jù)

用戶地理位置數(shù)據(jù)主要是通過移動端對用戶的地理位置進行定位,從而實現(xiàn)O2O推廣、商家推薦、交友推薦等,以線上的營銷帶動線下的消費。大眾點評、美團等團購平臺就是利用了這種數(shù)據(jù)類型實現(xiàn)營銷。

4. 互聯(lián)網(wǎng)金融數(shù)據(jù)

互聯(lián)網(wǎng)金融數(shù)據(jù)主要指P2P、小額貸款、支付等交易記錄以及信用記錄,從而更精準地進行金融產(chǎn)品的營銷、對金融產(chǎn)品及服務進行定價、提高風險控制的水平。

5. 用戶社交等UGC數(shù)據(jù)

用戶社交等UGC數(shù)據(jù),即用戶通過互聯(lián)網(wǎng)平臺向其他用戶分享的自己原創(chuàng)的內(nèi)容。UGC不是某一種具體業(yè)務,而是用戶使用互聯(lián)網(wǎng)的新方式,由原來的以下載為主轉(zhuǎn)變?yōu)橄螺d和上傳兩者并重。YouTube等網(wǎng)站是UGC的成功案例,社區(qū)網(wǎng)絡(luò)、圖片分享、視頻分享等都是UGC的主要應用形式。收集這些數(shù)據(jù)可以用于趨勢分析、流行元素分析、受歡迎程度分析、輿論監(jiān)控分析、社會問題分析等,并可以從里面挖掘出政治、社會、文化、商業(yè)、健康等領(lǐng)域的信息,甚至可以用于預測未來。

(二)政府大數(shù)據(jù)

我國政府部門握有構(gòu)成社會基礎(chǔ)的原始數(shù)據(jù),如信用數(shù)據(jù)、氣象數(shù)據(jù)、環(huán)保數(shù)據(jù)、金融數(shù)據(jù)、電力數(shù)據(jù)、教育數(shù)據(jù)、煤氣數(shù)據(jù)、道路交通數(shù)據(jù)、自來水數(shù)據(jù)、醫(yī)療數(shù)據(jù)、安全刑事案件數(shù)據(jù)、住房數(shù)據(jù)、海關(guān)數(shù)據(jù)、出入境數(shù)據(jù)、旅游數(shù)據(jù)等。這些數(shù)據(jù)在每個政府部門里看起來都是單一的、靜態(tài)的。但是如果可以將這些數(shù)據(jù)關(guān)聯(lián)起來,并對這些數(shù)據(jù)進行有效的關(guān)聯(lián)分析和統(tǒng)一管理,那么這些數(shù)據(jù)必將創(chuàng)造出無法估量的價值。大數(shù)據(jù)擁有變革產(chǎn)業(yè)、變革社會的力量,在我國產(chǎn)業(yè)結(jié)構(gòu)升級、城市規(guī)劃、政治改革的進程中必然發(fā)揮重要的作用,這使得它成為國家戰(zhàn)略的重要組成部分。

具體以智慧城市建設(shè)為例。現(xiàn)代化城市都計劃走向智能和智慧,如智能電網(wǎng)、智慧交通、智慧醫(yī)療、智慧環(huán)保、智慧城市等,而這些目標的實現(xiàn)都需要緊緊依托大數(shù)據(jù),可以說大數(shù)據(jù)是智慧的核心能源。基于國內(nèi)整體的投資規(guī)模,到2012年年底全國開展智慧城市創(chuàng)建的城市數(shù)量超過180個,數(shù)據(jù)平臺及通信網(wǎng)絡(luò)等基建的投資規(guī)模將近5 000億元。“十二五”時期智慧城市建設(shè)帶動的設(shè)備投資規(guī)模預計近1萬億元。大數(shù)據(jù)將為建設(shè)智慧城市涉及的多個領(lǐng)域提供決策幫助。對于城市規(guī)劃,城市地理、氣象等自然信息及社會、經(jīng)濟、文化、人口等人文社會信息的挖掘可以為城市規(guī)劃提供建議和協(xié)助決策,提高城市管理服務的科學性及前瞻性。對于交通管理,通過對道路交通信息的實時挖掘,可以有效緩解交通擁堵的情況,并且快速應對突發(fā)狀況,為城市交通的正常運行提供科學的決策依據(jù)。對于輿情監(jiān)控,通過網(wǎng)絡(luò)相關(guān)關(guān)鍵詞的搜索和語義智能分析,可以加強輿情分析的及時性及全面性,把握輿情,應對網(wǎng)絡(luò)突發(fā)公共事件,打擊違法犯罪等惡劣行為,多角度提高公共服務能力。最后,對于安防和防災方面,利用大數(shù)據(jù)挖掘能夠及時發(fā)現(xiàn)自然或者人為災害、恐怖襲擊事件,提高應急處理能力和安全防范能力。

(三)企業(yè)大數(shù)據(jù)

企業(yè)決策者需要借助充足的數(shù)據(jù)來做出科學決策。在未來,大數(shù)據(jù)就像一個巨大的杠桿,能夠從局部撬動企業(yè)整體,提升公司的影響力,帶來競爭差異,增加利潤,愉悅買家,獎賞忠誠用戶,將潛在客戶轉(zhuǎn)化為客戶,增加企業(yè)對顧客的吸引力,開拓用戶群并創(chuàng)造市場。以下三類傳統(tǒng)企業(yè)最需要大數(shù)據(jù)服務:一是對大量的消費者提供產(chǎn)品或服務的企業(yè),大數(shù)據(jù)能夠幫助它們實現(xiàn)精準營銷,從而降低成本、提高利潤、提升競爭力;二是做小而美模式的中長尾企業(yè),借助大數(shù)據(jù)分析能夠?qū)δ繕耸袌黾翱蛻糇龀龈鼫蚀_的分析與評價,協(xié)助它們實現(xiàn)服務轉(zhuǎn)型與升級;三是在互聯(lián)網(wǎng)浪潮的沖擊下必須轉(zhuǎn)型的傳統(tǒng)企業(yè),這類企業(yè)必須抓住大數(shù)據(jù)這一機遇,大膽革新、適時轉(zhuǎn)型,否則必將被互聯(lián)網(wǎng)企業(yè)所淘汰。

在未來,數(shù)據(jù)有可能逐漸成為企業(yè)的一種資產(chǎn),并逐漸實現(xiàn)數(shù)據(jù)產(chǎn)業(yè)向傳統(tǒng)企業(yè)的供應鏈模式發(fā)展,最終形成“數(shù)據(jù)供應鏈”模式。在這種情況下會出現(xiàn)以下兩個較為明顯的現(xiàn)象:一是外部數(shù)據(jù)的重要性日益超過內(nèi)部數(shù)據(jù),因為在互聯(lián)網(wǎng)時代下,單一企業(yè)的內(nèi)部數(shù)據(jù)與整個互聯(lián)網(wǎng)數(shù)據(jù)比較起來猶如滄海一粟,企業(yè)外部的海量數(shù)據(jù)將發(fā)揮更重要的作用;二是如果一個企業(yè)能夠提供包括數(shù)據(jù)供應、數(shù)據(jù)整合與加工、數(shù)據(jù)應用等多個環(huán)節(jié)服務,那么這樣的企業(yè)會有較為明顯的綜合競爭優(yōu)勢。在這樣的時代發(fā)展趨勢下,一直做企業(yè)服務的行業(yè)巨頭優(yōu)勢將不復存在,不得不接受新興互聯(lián)網(wǎng)企業(yè)的挑戰(zhàn),開啟新一輪的激烈競爭。以IBM為例,上一個十年,他們拋棄了個人計算機業(yè)務,成功將業(yè)務重心轉(zhuǎn)向了軟件和服務。而這次將它遠離服務與咨詢業(yè)務,更多地專注于因大數(shù)據(jù)分析軟件而帶來的全新業(yè)務增長點。IBM執(zhí)行總裁羅睿蘭認為:“數(shù)據(jù)將成為一切行業(yè)當中決定勝負的根本因素,最終數(shù)據(jù)將成為人類至關(guān)重要的自然資源。”IBM積極地提出了“大數(shù)據(jù)平臺”架構(gòu),該平臺的四大核心能力包括Hadoop系統(tǒng)、流計算(stream computing)、數(shù)據(jù)倉庫(data warehouse)和信息整合與治理(information integration and governance)。

(四)個人大數(shù)據(jù)

顧名思義,個人大數(shù)據(jù)就是與個人相關(guān)聯(lián)的各種有價值數(shù)據(jù)信息的總和。這些數(shù)據(jù)集被有效采集后,經(jīng)本人授權(quán)后提供給第三方進行處理和使用,并獲得第三方提供的數(shù)據(jù)服務。以個人為中心的大數(shù)據(jù)具有以下幾個特征:一是數(shù)據(jù)僅保存在個人中心,只有經(jīng)過本人的授權(quán),其他第三方機構(gòu)才能夠使用,并且有一定的使用期限,必須接受監(jiān)管,用后即焚;二是采集個人數(shù)據(jù)應該明確分類,除了國家立法明確要求接受監(jiān)控的數(shù)據(jù)外,其他類型的數(shù)據(jù)都由用戶自己決定是否被采集;三是數(shù)據(jù)的使用將只能由用戶進行授權(quán),數(shù)據(jù)中心可幫助監(jiān)控個人數(shù)據(jù)的整個生命周期。

在此,對個人大數(shù)據(jù)時代的光明前景進行大膽展望。未來,每個用戶都可以在互聯(lián)網(wǎng)上注冊個人的數(shù)據(jù)中心,以存儲個人的大數(shù)據(jù)信息。其中,有一部分個人數(shù)據(jù)是無須個人授權(quán)即可提供給國家相關(guān)部門進行實時監(jiān)控的,如罪案預防監(jiān)控中心可以實時監(jiān)控本地區(qū)每個人的情緒和心理狀態(tài),以預防自殺和犯罪的發(fā)生。除此之外,用戶還可決定其他個人數(shù)據(jù)哪些可以被采集,并通過可穿戴設(shè)備或植入芯片等感知技術(shù)來采集捕獲個人的大數(shù)據(jù),如牙齒監(jiān)控數(shù)據(jù)、心率數(shù)據(jù)、體溫數(shù)據(jù)、運動數(shù)據(jù)、視力數(shù)據(jù)、記憶能力、飲食數(shù)據(jù)、購物數(shù)據(jù)、地理位置信息、社會關(guān)系數(shù)據(jù)等。用戶可以將其中的牙齒監(jiān)測數(shù)據(jù)授權(quán)給牙科診所使用,由他們監(jiān)控和使用這些數(shù)據(jù),進而為用戶制訂有效的牙齒防治和維護計劃;也可以將個人的運動數(shù)據(jù)授權(quán)提供給某運動健身機構(gòu),由他們監(jiān)測自己的身體運動機能,并有針對地制訂和調(diào)整個人的運動計劃;還可以將個人的消費數(shù)據(jù)授權(quán)給金融理財機構(gòu),由他們幫助制訂合理的理財計劃并對收益進行預測。但是,個人數(shù)據(jù)中心的產(chǎn)生必然伴隨著個人數(shù)據(jù)隱私被泄露的隱患,所以未來在推進個人數(shù)據(jù)中心建設(shè)的進程中需要解決的問題是如何通過有效的數(shù)據(jù)監(jiān)管措施來保障數(shù)據(jù)的安全與合理利用。

主站蜘蛛池模板: 迁安市| 晋中市| 怀柔区| 清新县| 广元市| 隆德县| 乌苏市| 天津市| 嵩明县| 江油市| 信丰县| 金湖县| 怀柔区| 万盛区| 三门峡市| 东至县| 雅江县| 英山县| 积石山| 开封县| 屯门区| 鹤峰县| 哈巴河县| 丽江市| 太仆寺旗| 稻城县| 彩票| 伽师县| 商城县| 玉龙| 温州市| 桓台县| 丰县| 株洲县| 重庆市| 金寨县| 荆州市| 大冶市| 莱州市| 集贤县| 来凤县|