- 大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)架構(gòu)設(shè)計(jì)
- 劉輝
- 14211字
- 2019-12-05 15:53:28
第一節(jié) 大數(shù)據(jù)概述
一、大數(shù)據(jù)的概念與特征
(一)大數(shù)據(jù)的概念
對(duì)于“大數(shù)據(jù)”(Big Data),研究機(jī)構(gòu)Gartner給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和低價(jià)值密度四大特征。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。對(duì)大數(shù)據(jù)必然無法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,而必須采用分布式架構(gòu)。分布式架構(gòu)的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘,但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫和云存儲(chǔ)、虛擬化技術(shù)。
隨著云時(shí)代的來臨,大數(shù)據(jù)也引起了越來越多的關(guān)注。著云臺(tái)分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)通常用來形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),將這些數(shù)據(jù)下載到關(guān)系型數(shù)據(jù)庫用于分析時(shí)會(huì)花費(fèi)很多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系在一起,因?yàn)橐M(jìn)行實(shí)時(shí)的大型數(shù)據(jù)集分析,需要有像MapReduce(簡稱MR)一樣的框架來向數(shù)十、數(shù)百甚至數(shù)千的電腦分配工作。
(二)大數(shù)據(jù)的特征
當(dāng)前,較為統(tǒng)一的認(rèn)識(shí)是大數(shù)據(jù)有四個(gè)基本特征:數(shù)據(jù)量(Volume)大,數(shù)據(jù)類型(Variety)多,數(shù)據(jù)處理速度(Velocity)快,數(shù)據(jù)價(jià)值密度(Value)低,即所謂的“4V”特性。這些特性使得大數(shù)據(jù)有別于傳統(tǒng)的數(shù)據(jù)概念。大數(shù)據(jù)的概念與“海量數(shù)據(jù)”不同,后者只強(qiáng)調(diào)數(shù)據(jù)的量,而大數(shù)據(jù)不僅用來描述大量的數(shù)據(jù),而且更進(jìn)一步指出數(shù)據(jù)的復(fù)雜形式、數(shù)據(jù)的快速時(shí)間特性以及對(duì)數(shù)據(jù)進(jìn)行專業(yè)化處理以最終獲得有價(jià)值信息的能力。
1.?dāng)?shù)據(jù)量大
大數(shù)據(jù)聚合在一起的數(shù)據(jù)量是非常大的,根據(jù)IDC的定義,至少要有超過100TB的可供分析的數(shù)據(jù)才能被稱為大數(shù)據(jù),數(shù)據(jù)量大是大數(shù)據(jù)的基本屬性。導(dǎo)致數(shù)據(jù)規(guī)模激增的原因有很多。首先是隨著互聯(lián)網(wǎng)的廣泛應(yīng)用,使用網(wǎng)絡(luò)的人、企業(yè)、機(jī)構(gòu)增多,數(shù)據(jù)獲取、分享變得相對(duì)容易。以前,只有少量的機(jī)構(gòu)可以通過調(diào)查、取樣的方法獲取數(shù)據(jù),同時(shí)發(fā)布數(shù)據(jù)的機(jī)構(gòu)也很有限,人們難以在短期內(nèi)獲取大量的數(shù)據(jù)。而現(xiàn)在,用戶可以通過網(wǎng)絡(luò)非常方便地獲取數(shù)據(jù),同時(shí)用戶通過有意地分享和無意地點(diǎn)擊、瀏覽都可以快速地提供大量數(shù)據(jù)。其次是隨著各種傳感器的數(shù)據(jù)獲取能力大幅提高,人們獲取的數(shù)據(jù)越來越接近原始事物本身,描述同一事物的數(shù)據(jù)激增。早期的單位化數(shù)據(jù),對(duì)原始事物進(jìn)行了一定程度的抽象,數(shù)據(jù)維度低,數(shù)據(jù)類型簡單,多采用表格的形式來收集、存儲(chǔ)、整理,數(shù)據(jù)的單位、量綱和意義基本統(tǒng)一,存儲(chǔ)、處理的只是數(shù)值而已,因此數(shù)據(jù)量有限,增長速度慢。而隨著數(shù)據(jù)應(yīng)用的發(fā)展,數(shù)據(jù)維度越來越高,描述相同事物所需的數(shù)據(jù)量越來越大。以當(dāng)前最為普遍的網(wǎng)絡(luò)數(shù)據(jù)為例,早期,網(wǎng)絡(luò)上的數(shù)據(jù)以文本和一維的音頻為主,維度低,單位數(shù)據(jù)量小。近年來,圖像、視頻等二維數(shù)據(jù)大規(guī)模涌現(xiàn),而隨著三維掃描設(shè)備以及Kinect等動(dòng)作捕捉設(shè)備的普及,數(shù)據(jù)越來越接近真實(shí)的世界,數(shù)據(jù)的描述能力不斷增強(qiáng),數(shù)據(jù)量本身必將以幾何級(jí)數(shù)增長。此外,數(shù)據(jù)量大還體現(xiàn)在人們處理數(shù)據(jù)的方法和理念發(fā)生了根本改變。早期,人們對(duì)事物的認(rèn)知受限于獲取、分析數(shù)據(jù)的能力,人們一直利用采樣的方法,以少量的數(shù)據(jù)來近似地描述事物的全貌,樣本的數(shù)量可以根據(jù)數(shù)據(jù)獲取、處理能力來設(shè)定。不管事物多么復(fù)雜,只要通過采樣得到部分樣本,使數(shù)據(jù)規(guī)模變小,就可以利用當(dāng)時(shí)的技術(shù)手段來進(jìn)行數(shù)據(jù)管理和分析。如何通過正確的采樣方法以最小的數(shù)據(jù)量盡可能分析整體屬性成了當(dāng)時(shí)的重要問題。隨著技術(shù)的發(fā)展,雖然樣本數(shù)目逐漸逼近原始的總體數(shù)據(jù),但在某些特定的應(yīng)用領(lǐng)域,采樣數(shù)據(jù)可能遠(yuǎn)不能描述整個(gè)事物,反而丟掉大量重要細(xì)節(jié),甚至可能使人們得到完全相反的結(jié)論。因此,當(dāng)今有直接處理所有數(shù)據(jù)而不是只考慮采樣數(shù)據(jù)的趨勢(shì)。使用所有數(shù)據(jù)可以帶來更高的精確性,從更多的細(xì)節(jié)來解釋事物屬性,同時(shí)也必然使得要處理的數(shù)據(jù)量顯著增多。
2.?dāng)?shù)據(jù)類型多
數(shù)據(jù)類型繁多,復(fù)雜多變是大數(shù)據(jù)的重要特性。以往的數(shù)據(jù)盡管數(shù)量龐大,但通常是事先定義好的結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是將事物向便于人類和計(jì)算機(jī)存儲(chǔ)、處理、查詢的方向抽象的結(jié)果。在抽象的過程中,忽略一些在特定的應(yīng)用下可以不考慮的細(xì)節(jié),抽取了有用的信息。處理此類結(jié)構(gòu)化數(shù)據(jù),只需事先分析好數(shù)據(jù)的意義以及數(shù)據(jù)間的相關(guān)屬性,構(gòu)造表結(jié)構(gòu)來表示數(shù)據(jù)的屬性。數(shù)據(jù)都以表格的形式保存在數(shù)據(jù)庫中,數(shù)據(jù)格式統(tǒng)一,以后不管再產(chǎn)生多少數(shù)據(jù),只需根據(jù)其屬性,將數(shù)據(jù)存儲(chǔ)在合適的位置,都可以方便地處理、查詢,一般不需要為新增的數(shù)據(jù)顯著地更改數(shù)據(jù)聚集、處理、查詢方法,限制數(shù)據(jù)處理能力的只是運(yùn)算速度和存儲(chǔ)空間。這種關(guān)注結(jié)構(gòu)化信息,強(qiáng)調(diào)大眾化、標(biāo)準(zhǔn)化的屬性使得處理傳統(tǒng)數(shù)據(jù)的復(fù)雜程度呈線性增長,新增的數(shù)據(jù)可以通過常規(guī)的技術(shù)手段處理。而隨著互聯(lián)網(wǎng)與傳感器的飛速發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量涌現(xiàn),非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的結(jié)構(gòu)屬性,難以用表結(jié)構(gòu)來表示,在記錄數(shù)據(jù)數(shù)值的同時(shí)還需要存儲(chǔ)數(shù)據(jù)的結(jié)構(gòu),這增加了數(shù)據(jù)存儲(chǔ)、處理的難度。而時(shí)下在網(wǎng)絡(luò)上流動(dòng)著的數(shù)據(jù)大部分是非結(jié)構(gòu)化數(shù)據(jù),人們上網(wǎng)不只是看看新聞,發(fā)送文字郵件,還會(huì)上傳下載照片、視頻,發(fā)送微博等非結(jié)構(gòu)化數(shù)據(jù)。同時(shí),存在于工作、生活中各個(gè)角落的傳感器也不斷地產(chǎn)生各種半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),這些結(jié)構(gòu)復(fù)雜,種類多樣,同時(shí)規(guī)模又很大的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)逐漸成為主流數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)量已占數(shù)據(jù)總量的75%以上,且非結(jié)構(gòu)化數(shù)據(jù)的增長速度比結(jié)構(gòu)化數(shù)據(jù)快10倍到50倍。在數(shù)據(jù)激增的同時(shí),新的數(shù)據(jù)類型層出不窮,已經(jīng)很難用一種或幾種規(guī)定的模式來表征日趨復(fù)雜、多樣的數(shù)據(jù)形式,這樣的數(shù)據(jù)已經(jīng)不能用傳統(tǒng)的數(shù)據(jù)庫表格來整齊地排列、表示。大數(shù)據(jù)正是在這樣的背景下產(chǎn)生的,大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)處理最大的不同就是是否重點(diǎn)關(guān)注非結(jié)構(gòu)化信息,大數(shù)據(jù)關(guān)注包含大量細(xì)節(jié)信息的非結(jié)構(gòu)化數(shù)據(jù),強(qiáng)調(diào)小眾化、體驗(yàn)化的特性使得傳統(tǒng)的數(shù)據(jù)處理方式面臨巨大的挑戰(zhàn)。
3.?dāng)?shù)據(jù)處理速度快
快速處理數(shù)據(jù),是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一。隨著各種傳感器和互聯(lián)網(wǎng)絡(luò)等信息獲取、傳播技術(shù)的飛速發(fā)展與普及,數(shù)據(jù)的產(chǎn)生、發(fā)布越來越容易,產(chǎn)生數(shù)據(jù)的途徑增多,個(gè)人甚至成了數(shù)據(jù)產(chǎn)生的主體之一。數(shù)據(jù)呈爆炸的形式快速增長,新數(shù)據(jù)不斷涌現(xiàn),快速增長的數(shù)據(jù)量要求數(shù)據(jù)處理的速度也相應(yīng)地提升,以使大量的數(shù)據(jù)得到有效的利用,否則不斷激增的數(shù)據(jù)不但不能為解決問題帶來優(yōu)勢(shì),反而會(huì)成為快速解決問題的負(fù)擔(dān)。同時(shí),數(shù)據(jù)不是靜止不動(dòng)的,而是在互聯(lián)網(wǎng)絡(luò)中不斷流動(dòng)的,且通常這樣的數(shù)據(jù)的價(jià)值是隨著時(shí)間的推移而迅速降低的。如果數(shù)據(jù)尚未得到有效的處理,就會(huì)失去價(jià)值,大量的數(shù)據(jù)就沒有意義了。此外,許多應(yīng)用要求能夠?qū)崟r(shí)處理新增的大量數(shù)據(jù),比如有大量在線交互的電子商務(wù)應(yīng)用,就具有很強(qiáng)的時(shí)效性。大數(shù)據(jù)以數(shù)據(jù)流的形式產(chǎn)生,快速流動(dòng),迅速消失,且數(shù)據(jù)流量通常是不穩(wěn)定的,會(huì)在某些特定時(shí)段突然激增,數(shù)據(jù)的涌現(xiàn)特征明顯。而用戶對(duì)于數(shù)據(jù)的響應(yīng)時(shí)間通常非常敏感,心理學(xué)實(shí)驗(yàn)證實(shí),從用戶體驗(yàn)的角度看,瞬間(3秒鐘)是可以容忍的最大極限。對(duì)于大數(shù)據(jù)應(yīng)用而言,很多情況下都必須要在1秒鐘或者瞬間形成結(jié)果,否則處理結(jié)果就是過時(shí)和無效的。這種情況下,大數(shù)據(jù)就要快速、持續(xù)地實(shí)時(shí)處理。對(duì)不斷激增的海量數(shù)據(jù)的實(shí)時(shí)處理要求,是大數(shù)據(jù)與傳統(tǒng)海量數(shù)據(jù)處理技術(shù)的關(guān)鍵差別之一。
4.?dāng)?shù)據(jù)價(jià)值密度低
數(shù)據(jù)價(jià)值密度低是大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的重要屬性。傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),依據(jù)特定的應(yīng)用,對(duì)事物進(jìn)行了相應(yīng)的抽象,每一條數(shù)據(jù)都包含該應(yīng)用需要考量的信息;而大數(shù)據(jù)為了獲取事物的全部細(xì)節(jié),不對(duì)事物進(jìn)行抽象、歸納等處理,直接采用原始的數(shù)據(jù),保留了數(shù)據(jù)的原貌,且通常不對(duì)數(shù)據(jù)進(jìn)行采樣,直接采用全體數(shù)據(jù)。減少采樣和抽象,呈現(xiàn)所有數(shù)據(jù)和全部細(xì)節(jié)信息,有助于分析更多的信息,但也引入了大量沒有意義的信息,甚至是錯(cuò)誤的信息,因此相對(duì)于特定的應(yīng)用,大數(shù)據(jù)關(guān)注的非結(jié)構(gòu)化數(shù)據(jù)的價(jià)值密度偏低。以當(dāng)前廣泛應(yīng)用的監(jiān)控視頻為例,在連續(xù)不間斷的監(jiān)控過程中,大量的視頻數(shù)據(jù)被存儲(chǔ)下來,許多數(shù)據(jù)可能無用,對(duì)于某一特定的應(yīng)用,比如獲取犯罪嫌疑人的體貌特征,有效的視頻數(shù)據(jù)可能只有一兩秒,大量不相關(guān)的視頻信息增加了獲取這有效的一兩秒數(shù)據(jù)的難度。而大數(shù)據(jù)的數(shù)據(jù)密度低是指對(duì)于特定的應(yīng)用,有效的信息相對(duì)于數(shù)據(jù)整體是偏少的,信息有效與否也是相對(duì)的,對(duì)于某些應(yīng)用無效的信息,對(duì)于另外一些應(yīng)用則成為最關(guān)鍵的信息。數(shù)據(jù)的價(jià)值也是相對(duì)的,有時(shí)一個(gè)微不足道的細(xì)節(jié)數(shù)據(jù)就可能造成巨大的影響,比如網(wǎng)絡(luò)中的一條幾十個(gè)字符的微博,就可能通過轉(zhuǎn)發(fā)而快速擴(kuò)散,導(dǎo)致相關(guān)信息大量涌現(xiàn),其價(jià)值不可估量。因此,為了保證對(duì)于新產(chǎn)生的應(yīng)用有足夠的有效信息,通常需保存所有數(shù)據(jù)。這樣,一方面使得數(shù)據(jù)的絕對(duì)數(shù)量激增;另一方面,使得數(shù)據(jù)的有效信息的比例不斷降低,數(shù)據(jù)價(jià)值密度降低。
從4V角度可以很好地看到傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別,如表1-1所示。
表1-1 傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù)的區(qū)別

(三)大數(shù)據(jù)的來源與類型
大數(shù)據(jù)的數(shù)據(jù)可以來自泛互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、行業(yè)或企業(yè)。泛互聯(lián)網(wǎng)的數(shù)據(jù)主要由門戶網(wǎng)站、電子商務(wù)網(wǎng)站、視頻網(wǎng)站、博客系統(tǒng)、微博系統(tǒng)等產(chǎn)生的數(shù)據(jù)構(gòu)成。這些數(shù)據(jù)總量一般在PB級(jí)到EB級(jí)之間,數(shù)據(jù)量龐大。物聯(lián)網(wǎng)的數(shù)據(jù)主要由具有信息采集功能的電子設(shè)備產(chǎn)生的數(shù)據(jù)構(gòu)成,如攝像頭、刷卡設(shè)備、傳感設(shè)備、遙感設(shè)備等,這些設(shè)備產(chǎn)生的數(shù)據(jù)價(jià)值密度低,但其數(shù)據(jù)量更龐大,通常是在EB級(jí),如何存儲(chǔ)和處理這些數(shù)據(jù)是大數(shù)據(jù)面臨的挑戰(zhàn)。行業(yè)或企業(yè)的數(shù)據(jù)主要是管理信息系統(tǒng)產(chǎn)生的數(shù)據(jù),常用的管理信息系統(tǒng)包括ERP(Enterprise Resource Planning,企業(yè)資源計(jì)劃)系統(tǒng)、CRM(Customer Relationship Management,顧客關(guān)系管理)系統(tǒng)、OA(Office Automation,辦公自動(dòng)化)系統(tǒng)和運(yùn)營系統(tǒng)等,數(shù)據(jù)總量一般在GB級(jí)和TB級(jí)之間。
大數(shù)據(jù)的數(shù)據(jù)類型主要有非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)三種。非結(jié)構(gòu)化數(shù)據(jù)由圖片、文字、音頻、視頻、日志和網(wǎng)頁等內(nèi)容構(gòu)成,以文件為單位存儲(chǔ),非結(jié)構(gòu)化數(shù)據(jù)是存儲(chǔ)在分布式文件系統(tǒng)中的。半結(jié)構(gòu)化數(shù)據(jù)由位置、視頻、溫度等內(nèi)容構(gòu)成,以數(shù)據(jù)流的形式進(jìn)入處理系統(tǒng),處理后也以文件為單位存儲(chǔ),半結(jié)構(gòu)化數(shù)據(jù)同樣也是存儲(chǔ)在分布式文件系統(tǒng)中的。結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容可以是任何事和物的記錄信息,以表格的形式存在,結(jié)構(gòu)化數(shù)據(jù)一般存儲(chǔ)在分布式數(shù)據(jù)庫系統(tǒng)中。對(duì)于不同類型的數(shù)據(jù),通常可以采用分布式文件或分布式數(shù)據(jù)庫進(jìn)行存儲(chǔ),采用關(guān)系型記錄、文本文件或流數(shù)據(jù)進(jìn)行數(shù)據(jù)處理。對(duì)于內(nèi)容構(gòu)成不同的數(shù)據(jù)類型,其應(yīng)用算法也會(huì)有所不同。
(四)大數(shù)據(jù)實(shí)例
大數(shù)據(jù)并非是用于激勵(lì)和迷惑IT一族的抽象概念,它是世界各地?cái)?shù)字活動(dòng)雪崩的結(jié)果。很多數(shù)據(jù)都是我們?cè)诓唤?jīng)意間產(chǎn)生的,我們?nèi)粘5囊慌e一動(dòng)都會(huì)給大數(shù)據(jù)留下印記。
在現(xiàn)實(shí)的生活中,一分鐘也許微不足道,連沏一壺茶都不夠,但是數(shù)據(jù)的產(chǎn)生是一刻也不停歇的。讓我們看看美國數(shù)據(jù)分析公司Domo對(duì)于一分鐘內(nèi)到底會(huì)有多少數(shù)據(jù)產(chǎn)生的總結(jié):YouTube用戶上傳時(shí)長為48小時(shí)的新視頻;電子郵件用戶發(fā)送204166677條信息;Google(谷歌)收到超過2000000個(gè)搜索查詢請(qǐng)求;Facebook用戶分享684478條內(nèi)容;消費(fèi)者在網(wǎng)購上花費(fèi)272070美元;Twitter用戶發(fā)送超過100000條微博;Apple(蘋果)收到大約47000個(gè)應(yīng)用下載請(qǐng)求;Facebook上的品牌和企業(yè)收到34722個(gè)“贊”; Tumblr博客用戶發(fā)布27778個(gè)新帖子;Instagram用戶分享36000張新照片;Flickr用戶添加3125張新照片;Foursquare用戶執(zhí)行2083次簽到;571個(gè)新網(wǎng)站誕生;WordPress用戶發(fā)布347篇新博文;移動(dòng)互聯(lián)網(wǎng)獲得217個(gè)新用戶。
數(shù)據(jù)還在不停地增長,并且沒有慢下來的跡象。據(jù)中國互聯(lián)網(wǎng)數(shù)據(jù)中心統(tǒng)計(jì):
(1)淘寶網(wǎng)每天同時(shí)在線的商品數(shù)量已經(jīng)超過了8億件,平均每分鐘售出4.8萬件商品。
(2)Foursquare用戶簽到信息達(dá)到了200億條。
(3)Facebook網(wǎng)站上每天的評(píng)論達(dá)32億條,每天新上傳的照片達(dá)3億張。
(4)YouTube每天的頁面瀏覽次數(shù)達(dá)到20億次,一周上傳15萬部電影,每天上傳83萬段視頻。
(5)新浪微博注冊(cè)用戶已超過3億人,用戶平均每天發(fā)布超過1億條微博。
毫無疑問,地理空間數(shù)據(jù)奠定了地理信息產(chǎn)業(yè)的基礎(chǔ)。隨著數(shù)據(jù)的收集、分發(fā)、管理和處理技術(shù)的進(jìn)步,地理信息數(shù)量呈現(xiàn)出指數(shù)級(jí)增長態(tài)勢(shì)。
1∶50000地形圖是我國的國家基本圖,是按規(guī)定要求覆蓋全部國土范圍的精度最高的地形圖。1∶50000基礎(chǔ)地理信息數(shù)據(jù)庫是由計(jì)算機(jī)系統(tǒng)管理的1∶50000地形圖系統(tǒng)。于2006年初步建成的1∶50000基礎(chǔ)地理信息數(shù)據(jù)庫,總數(shù)據(jù)量為5.3TB,相當(dāng)于8000張光盤的存儲(chǔ)量。截至2011年,數(shù)據(jù)庫更新工程完成了19150幅1∶50000地形圖的數(shù)據(jù)更新與完善,對(duì)20多萬張航空相片和8000多景衛(wèi)星遙感影像進(jìn)行了信息處理,工程成果數(shù)據(jù)量達(dá)到12.3 TB。此項(xiàng)工程還建立了全新的數(shù)據(jù)庫管理和服務(wù)系統(tǒng)。
2006年,谷歌公司的一篇學(xué)術(shù)論文透露,谷歌地球(Google Earth)的數(shù)據(jù)量已達(dá)70.5TB,其中包括70TB的原始圖像和500GB的索引文件。而在2010年,據(jù)李開復(fù)估算,谷歌地球需要至少50萬TB(約等于500PB)的海量空間來存儲(chǔ)地表的圖像。
另外,還有一些新興的與位置相關(guān)的大數(shù)據(jù)。
(1)個(gè)人位置數(shù)據(jù)(Personal Location Data)。其主要來源是帶GPS(Global Positioning System,全球定位系統(tǒng))芯片的設(shè)備、移動(dòng)基站定位(可識(shí)別全球近50億臺(tái)移動(dòng)設(shè)備的位置)。2009年,全球個(gè)人位置數(shù)據(jù)量已達(dá)1~3PB,并以每年20%的速度增長。據(jù)預(yù)測(cè),到2020年,個(gè)人位置應(yīng)用將為服務(wù)提供商帶來1000億美元的收入,為終端用戶創(chuàng)造7000億美元的價(jià)值。
(2)可地理定位的照片和視頻。地理標(biāo)簽(Geotagging)是向照片、視頻、網(wǎng)站、短信息等添加地理標(biāo)識(shí)元數(shù)據(jù)的過程,是一種地理空間元數(shù)據(jù)的形式。Flickr中有接近2億個(gè)具有地理標(biāo)簽的照片和短視頻(PB級(jí))。
(3)可地理定位的超文本網(wǎng)頁。地理編碼(Geocode)是地理空間屬性的組合,例如經(jīng)度、緯度、海拔高度、坐標(biāo)參照系、大地測(cè)量參考系等。維基百科中有超過544萬條具有地理編碼的條目(TB級(jí))。
下面再來看看,EMC(易安信)等公司作為大數(shù)據(jù)背后的支持者,如何促使我們以全新的視角洞察我們的生活。
(1)過去十年,EMC公司發(fā)出了11.6 EB的存儲(chǔ)量,占發(fā)出的所有外部存儲(chǔ)容量的24%。產(chǎn)生大數(shù)據(jù)的領(lǐng)域主要包括醫(yī)學(xué)成像、數(shù)字音樂、數(shù)字圖片、智能電網(wǎng)、視頻監(jiān)控、基因測(cè)序、社交媒體和手機(jī)傳感器等。
(2)紐約—泛歐交易所使用軟件對(duì)其在美國市場(chǎng)所處理的每一筆訂單進(jìn)行分析和存檔。2011年,平均每天分析和存檔的訂單超過20億筆。
(3)Broad Institute(博德研究所)使用10PB的存儲(chǔ)容量執(zhí)行基因測(cè)序。基因測(cè)序公司Ambry Genetics的數(shù)據(jù)量以每年100%的速度增長。
(4)Legend 3D(2D-3D介質(zhì)轉(zhuǎn)換)曾經(jīng)為《變形金剛》《藍(lán)精靈》《雨果》《蜘蛛俠》等賣座大片提供特效制作。電影制作過程中,400位藝術(shù)家的表演每周生成超過100TB的數(shù)據(jù)。
(5)美聯(lián)社提高了高清視頻的訪問速度。其數(shù)據(jù)量從2012年的800TB增加到2013年的2.5PB。
(6)2011年,LinkedIn(領(lǐng)英)會(huì)員在平臺(tái)上進(jìn)行了近42億次專業(yè)化搜索。2012年這個(gè)數(shù)字超過了53億。
(7)依靠相關(guān)技術(shù)的支持,Silver Spring Networks(銀泉網(wǎng)絡(luò))能夠在1分鐘時(shí)間內(nèi)分析超過100萬個(gè)智能電表的數(shù)據(jù)。
(8)美國國家棒球名人堂博物館運(yùn)營的平臺(tái)上存儲(chǔ)了50萬張照片、1.2萬小時(shí)的音頻和視頻、300萬個(gè)文檔和4萬個(gè)三維制品等。
(9)eBay(易貝)擁有900萬用戶,每天存儲(chǔ)和管理的對(duì)象超過5億個(gè)。
(10)JFX Archive存儲(chǔ)了840萬份來自個(gè)人、國會(huì)和總統(tǒng)的文件,以及4000萬份與政府有關(guān)的人員的文件。同時(shí),檔案中還有40萬張照片、9000小時(shí)的錄音和1200小時(shí)的錄像。
(11)Stereo D公司和Deluxe Entertainment公司通過技術(shù)手段實(shí)現(xiàn)3D渲染。將來,3D電影的數(shù)據(jù)量有望達(dá)到10PB。
(12)由于交互式音頻和視頻內(nèi)容市場(chǎng)的擴(kuò)大,擁有200年歷史的出版商John Wiley and Sons在2010年到2011年期間存儲(chǔ)數(shù)據(jù)量從15TB增加到150TB。
(13)美國足球隊(duì)Fulham使用設(shè)備存儲(chǔ)所有閉路監(jiān)控視頻,其使用的27個(gè)攝像頭的分辨率非常高,可以讀取60米遠(yuǎn)的號(hào)碼牌。
(14)DigitalGlobe的圖像庫使用了2PB的存儲(chǔ)容量,存儲(chǔ)了18.7億平方千米的地球圖像。
(15)美國國會(huì)圖書館每年可對(duì)75萬到100萬條書目進(jìn)行數(shù)字化。
(16)ComScore公司每個(gè)月可以處理1萬億份客戶記錄,遠(yuǎn)遠(yuǎn)超過2011年的每月4730億份。
二、大數(shù)據(jù)的發(fā)展與前景
(一)大數(shù)據(jù)的發(fā)展歷程
大數(shù)據(jù)作為一個(gè)專有名詞迅速成為全球的熱點(diǎn),主要是因?yàn)榻陙砘ヂ?lián)網(wǎng)、云計(jì)算、移動(dòng)通信和物聯(lián)網(wǎng)迅猛發(fā)展。無所不在的移動(dòng)設(shè)備、無線傳感器、智能設(shè)備和科學(xué)儀器每分每秒都在產(chǎn)生數(shù)據(jù),面向數(shù)以億計(jì)的用戶的互聯(lián)網(wǎng)服務(wù)時(shí)時(shí)刻刻都在產(chǎn)生大量的交互數(shù)據(jù)。要處理的數(shù)據(jù)量實(shí)在是太大,數(shù)據(jù)增長速度實(shí)在太快,而業(yè)務(wù)需求和競(jìng)爭(zhēng)壓力對(duì)數(shù)據(jù)處理的實(shí)時(shí)性、有效性又提出了更高的要求,傳統(tǒng)的常規(guī)技術(shù)手段根本無法應(yīng)付。圖1-1展示了大數(shù)據(jù)的發(fā)展歷程。

圖1-1 大數(shù)據(jù)的發(fā)展歷程
從2009年開始,大數(shù)據(jù)逐漸成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的關(guān)注熱點(diǎn)。2011年5月,麥肯錫全球研究院發(fā)布題為《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》的報(bào)告,正式提出了“大數(shù)據(jù)”這個(gè)概念。該報(bào)告描述了已經(jīng)進(jìn)入每個(gè)部門和經(jīng)濟(jì)領(lǐng)域的數(shù)字型數(shù)據(jù)的狀態(tài)和其成長中的角色,并提出充分的證據(jù)表明大數(shù)據(jù)能顯著地為國民經(jīng)濟(jì)做出貢獻(xiàn),為整個(gè)世界經(jīng)濟(jì)創(chuàng)造實(shí)質(zhì)性的價(jià)值。
該報(bào)告深入研究了五個(gè)領(lǐng)域來觀察大數(shù)據(jù)是如何創(chuàng)造出價(jià)值的,并研究了大數(shù)據(jù)的變革潛力。這五個(gè)領(lǐng)域包括美國醫(yī)療衛(wèi)生、歐洲聯(lián)合公共部門管理、美國零售業(yè)、全球制造業(yè)和個(gè)人地理位置信息。這五個(gè)領(lǐng)域不僅代表了全球經(jīng)濟(jì)的核心領(lǐng)域,也說明了一系列區(qū)域性的觀點(diǎn)。通過對(duì)這五個(gè)領(lǐng)域的詳細(xì)分析,該報(bào)告提出了五個(gè)可以利用大數(shù)據(jù)的變革潛力創(chuàng)造價(jià)值的、廣泛適用的方法,具體如下。
(1)創(chuàng)造透明度,讓相關(guān)人員更容易地及時(shí)獲得大數(shù)據(jù),以此來創(chuàng)造巨大的價(jià)值。
(2)通過實(shí)驗(yàn)來發(fā)現(xiàn)需求、呈現(xiàn)可變性和增強(qiáng)績效。越來越多的公司在以數(shù)字化的形式收集和存儲(chǔ)大量非常詳細(xì)的商業(yè)交易數(shù)據(jù)。因?yàn)檫@樣不僅可以訪問這些數(shù)據(jù),有時(shí)還可以控制數(shù)據(jù)生成的條件,所以最終的決策可能會(huì)截然不同。這其實(shí)就是將更加科學(xué)的方法引入管理中,特別是決策者可以設(shè)計(jì)和實(shí)施實(shí)驗(yàn),經(jīng)過嚴(yán)格的定量分析后再做出決策。
(3)細(xì)分人群,采取靈活的行動(dòng)。利用大數(shù)據(jù),可以創(chuàng)建精細(xì)的分段,精簡服務(wù),更精確地滿足顧客的需求。這種方法在市場(chǎng)和風(fēng)險(xiǎn)管理方面比較常見,像公共部門管理這樣的領(lǐng)域也可以借鑒。
(4)用自動(dòng)算法代替或幫助人工決策。精密的分析算法能夠?qū)嵸|(zhì)性地優(yōu)化決策,減少風(fēng)險(xiǎn),發(fā)掘有價(jià)值的觀點(diǎn),而大數(shù)據(jù)能提供用于開發(fā)精密分析算法或算法需要操作的原始數(shù)據(jù)。
(5)創(chuàng)新商業(yè)模式、產(chǎn)品和服務(wù)。因?yàn)橛辛舜髷?shù)據(jù),所以所有類型的企業(yè)都可以創(chuàng)新產(chǎn)品和服務(wù),改善現(xiàn)有的產(chǎn)品和服務(wù),并開發(fā)全新的商業(yè)模式。
這份報(bào)告在互聯(lián)網(wǎng)上引起了強(qiáng)烈的反響。報(bào)告發(fā)布后,“大數(shù)據(jù)”迅速成為計(jì)算機(jī)行業(yè)的熱門概念。在此之后,包括IBM、Microsoft(微軟)、EMC等在內(nèi)的國際IT巨頭公司紛紛通過收購大數(shù)據(jù)相關(guān)的廠商來實(shí)現(xiàn)技術(shù)整合,積極部署大數(shù)據(jù)戰(zhàn)略。2011年5月,EMC舉辦了主題為“云計(jì)算遇上大數(shù)據(jù)”的全球會(huì)議,IBM則發(fā)布了大數(shù)據(jù)分析軟件平臺(tái)InfoSphere BigInsights和InfoSphere Streams,將Hadoop開源平臺(tái)與IBM系統(tǒng)整合起來。2011年7月至8月,Yahoo(雅虎)、EMC及Microsoft先后推出了基于Hadoop的大數(shù)據(jù)處理產(chǎn)品。
2012年1月,大數(shù)據(jù)成為瑞士達(dá)沃斯全球經(jīng)濟(jì)論壇的主題,論壇發(fā)布了一份題為《大數(shù)據(jù),大影響》的報(bào)告,宣稱數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。
2012年3月,美國政府宣布投資2億美元用于大數(shù)據(jù)領(lǐng)域,并把大數(shù)據(jù)定義為“未來的新石油”。白宮科技政策辦公室在2012年3月29日發(fā)布《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,并組建“大數(shù)據(jù)高級(jí)指導(dǎo)小組”。此舉標(biāo)志著美國把如何應(yīng)對(duì)大數(shù)據(jù)技術(shù)革命帶來的機(jī)遇和挑戰(zhàn),提高到國家戰(zhàn)略層面,形成全體動(dòng)員格局。隨后在全球掀起了一股大數(shù)據(jù)的熱潮。
2012年7月,聯(lián)合國“全球脈動(dòng)”計(jì)劃發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》白皮書。該計(jì)劃旨在通過對(duì)互聯(lián)網(wǎng)實(shí)時(shí)數(shù)據(jù)的分析,更及時(shí)地了解人們所面臨的困難和挑戰(zhàn),并提出改善這些境況的決策,為宏觀經(jīng)濟(jì)的發(fā)展決策提供支持。
2012年10月,中國計(jì)算機(jī)學(xué)會(huì)成立了大數(shù)據(jù)專家委員會(huì)。委員會(huì)的宗旨包括三個(gè)方面:探討大數(shù)據(jù)的核心科學(xué)與技術(shù)問題,推動(dòng)大數(shù)據(jù)學(xué)科方向的建設(shè)與發(fā)展;構(gòu)建面向大數(shù)據(jù)產(chǎn)學(xué)研用的學(xué)術(shù)交流、技術(shù)合作與數(shù)據(jù)共享平臺(tái);為相關(guān)政府部門提供大數(shù)據(jù)研究與應(yīng)用的戰(zhàn)略性意見與建議。委員會(huì)還成立了五個(gè)工作組,分別負(fù)責(zé)大數(shù)據(jù)相關(guān)的會(huì)議(學(xué)術(shù)會(huì)議、技術(shù)會(huì)議)組織、學(xué)術(shù)交流、產(chǎn)學(xué)研用合作、開源社區(qū)與大數(shù)據(jù)共享聯(lián)盟等方面的工作。這標(biāo)志著大數(shù)據(jù)在我國信息技術(shù)領(lǐng)域的地位得到確立。
(二)大數(shù)據(jù)的機(jī)遇與挑戰(zhàn)
對(duì)當(dāng)今企業(yè)而言,大數(shù)據(jù)既是絕佳的商機(jī),也是巨大的挑戰(zhàn)。當(dāng)今企業(yè)的高速發(fā)展及數(shù)字世界所創(chuàng)造的海量數(shù)據(jù),要求采用新方法從數(shù)據(jù)中提取價(jià)值。在結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)流背后,隱藏著一些問題的答案。但是,企業(yè)甚至都沒有想到問這些問題,或者由于技術(shù)限制尚未能提出這些問題。大數(shù)據(jù)迫使企業(yè)尋找接近數(shù)據(jù)的新方式并一一找出其中蘊(yùn)藏著什么以及如何對(duì)其加以利用。存儲(chǔ)、網(wǎng)絡(luò)和計(jì)算技術(shù)領(lǐng)域的最新發(fā)展使得企業(yè)能經(jīng)濟(jì)、高效地利用大數(shù)據(jù)并使其成為形成業(yè)務(wù)優(yōu)勢(shì)的有力來源。
Forrester Research公司估計(jì),企業(yè)僅能有效利用不到5 %的可用數(shù)據(jù),這是因?yàn)橐幚砥溆鄶?shù)據(jù)的代價(jià)不菲。大數(shù)據(jù)的技術(shù)和方法是一項(xiàng)重要進(jìn)步,因?yàn)樗鼈兪沟闷髽I(yè)能經(jīng)濟(jì)高效地處理被忽視的那95%的數(shù)據(jù)。如果兩家公司以相同的效率利用數(shù)據(jù),其中一家處理15%的數(shù)據(jù),而另一家只能處理5%,哪家公司更有可能勝出?企業(yè)若能發(fā)掘大數(shù)據(jù)來改善戰(zhàn)略并提升執(zhí)行能力,也就代表他們正在拉開與競(jìng)爭(zhēng)者的距離。
如果使用正確,大數(shù)據(jù)可以帶來洞察力,從而有助于制定、改善和重導(dǎo)業(yè)務(wù)計(jì)劃,發(fā)現(xiàn)運(yùn)營路障,簡化供應(yīng)鏈,更好地理解客戶,開發(fā)新的產(chǎn)品、服務(wù)和業(yè)務(wù)模式。盡管企業(yè)對(duì)大數(shù)據(jù)的有用性有了清晰的認(rèn)識(shí),但通往大數(shù)據(jù)生產(chǎn)率的道路仍不明確。成功利用大數(shù)據(jù)洞察力要求在成熟技術(shù)、新式工作人員技能和領(lǐng)導(dǎo)力重心方面具有實(shí)際投入。
企業(yè)嗅到了大數(shù)據(jù)蘊(yùn)藏的商業(yè)價(jià)值,并清楚地認(rèn)識(shí)到必須加快將大數(shù)據(jù)進(jìn)化成超越傳統(tǒng)意義的商業(yè)智能,方法就是在每個(gè)決策核心中應(yīng)用數(shù)據(jù)分析。
以消費(fèi)品生產(chǎn)和零售業(yè)為例,從20世紀(jì)70年代到80年代早期,包裝消費(fèi)品生產(chǎn)商和零售商在經(jīng)營業(yè)務(wù)時(shí)會(huì)參考AC Nielsen半月刊市場(chǎng)報(bào)告。這些報(bào)告提供了競(jìng)爭(zhēng)對(duì)手和市場(chǎng)的數(shù)據(jù)(如收入、銷售量、平均價(jià)格和市場(chǎng)份額等),生產(chǎn)商借此來確定銷售、營銷、廣告和促銷戰(zhàn)略、計(jì)劃,以及與渠道合作伙伴(如分銷商、批發(fā)商和零售商)相關(guān)的開支。到20世紀(jì)80年代中期,Information Resources Inc.(IRI)推行在零售地點(diǎn)安裝免費(fèi)的銷售點(diǎn)掃描器,俗稱“POS機(jī)”,以交換其中的銷售數(shù)據(jù)。零售商愉快地接受了這樣的交換,因?yàn)閯趧?dòng)力是他們的最大成本構(gòu)成,而且那時(shí)他們對(duì)POS機(jī)數(shù)據(jù)的價(jià)值認(rèn)識(shí)很有限。這種在當(dāng)時(shí)被視為大數(shù)據(jù)的POS機(jī)數(shù)據(jù)改變了游戲規(guī)則、經(jīng)營業(yè)務(wù)方式,行業(yè)內(nèi)(在生產(chǎn)商和銷售商之間)的權(quán)力也發(fā)生了轉(zhuǎn)變。數(shù)據(jù)量從MB級(jí)上升到TB級(jí),催生了新一代存儲(chǔ)和服務(wù)器平臺(tái),以及各種分析工具。沃爾瑪?shù)惹把毓纠眠@種新的大數(shù)據(jù)和新的分析平臺(tái)與工具獲得了競(jìng)爭(zhēng)優(yōu)勢(shì)。這些公司率先開發(fā)了新類別的大數(shù)據(jù)、分析驅(qū)動(dòng)型業(yè)務(wù)應(yīng)用程序,以一種具有成本效益的方式解決了之前不能如此解決的業(yè)務(wù)問題,例如基于需求的預(yù)測(cè)、供應(yīng)鏈優(yōu)化、交易支出有效性分析、市場(chǎng)購物籃分析、分類管理和商品陣列優(yōu)化、價(jià)格/收益優(yōu)化、商品減價(jià)管理、客戶忠誠度計(jì)劃等。30年后,一切似乎又回到了從前。對(duì)新的、低延遲的、細(xì)粒度的、多樣化的數(shù)據(jù)源(大數(shù)據(jù))的開發(fā)具有改變企業(yè)和行業(yè)運(yùn)營方式的潛力。這些新的數(shù)據(jù)源來自于一系列設(shè)備、客戶交互和業(yè)務(wù)活動(dòng),能揭示對(duì)企業(yè)和行業(yè)價(jià)值鏈的深刻見解。隨著這些更詳細(xì)的新數(shù)據(jù)源的出現(xiàn),各大企業(yè)又發(fā)現(xiàn)了以前未察覺的商機(jī),引發(fā)了創(chuàng)造新業(yè)務(wù)應(yīng)用程序系列的熱潮。然而,要實(shí)現(xiàn)這一切,還需要新的平臺(tái)(基礎(chǔ)架構(gòu))和工具(分析)。
數(shù)據(jù)需要一種可以讓業(yè)務(wù)和技術(shù)都獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的新型分析平臺(tái)。新平臺(tái)對(duì)海量數(shù)據(jù)集具有更高級(jí)別的處理能力,不僅能讓企業(yè)不斷地對(duì)大數(shù)據(jù)內(nèi)蘊(yùn)藏的可操作性提出深刻見解,還能實(shí)現(xiàn)與用戶網(wǎng)絡(luò)環(huán)境的無縫集成(無位置限制)。這種新的分析平臺(tái)能夠讓企業(yè)的對(duì)海量數(shù)據(jù)和改進(jìn)業(yè)務(wù)決策進(jìn)行前瞻式預(yù)測(cè)分析,讓企業(yè)從回顧性報(bào)告的舊方式中解脫出來。
然而,處理新的大數(shù)據(jù),對(duì)平臺(tái)提出了如下三個(gè)重大的挑戰(zhàn)。
1.線性可擴(kuò)展性支持分析大型數(shù)據(jù)集
(1)可實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)集(TB級(jí)到PB級(jí))的分析。這至關(guān)重要,因?yàn)槎鄶?shù)大數(shù)據(jù)項(xiàng)目開始的時(shí)候規(guī)模很小,但隨著業(yè)務(wù)部門的持續(xù)使用,規(guī)模會(huì)迅速變大。
(2)對(duì)海量數(shù)據(jù)的利用意味著能以完全不同的方式解決業(yè)務(wù)問題。
2.低延遲數(shù)據(jù)訪問有助于加快決策
(1)許多商機(jī)都是一閃即逝的,所以只有那些能夠最快地從數(shù)據(jù)中發(fā)現(xiàn)商機(jī)并采取行動(dòng)的企業(yè)才能實(shí)現(xiàn)商業(yè)價(jià)值。
(2)縮短數(shù)據(jù)事件與數(shù)據(jù)可供使用這兩者之間的時(shí)間,讓運(yùn)營分析成為現(xiàn)實(shí)。
3.集成數(shù)據(jù)分析幫助實(shí)現(xiàn)新業(yè)務(wù)應(yīng)用程序
(1)將分析集成到與數(shù)據(jù)倉庫和商情相同的環(huán)境中,將加快分析生命周期流程,并使分析結(jié)果更快地實(shí)現(xiàn)可操作化或能夠據(jù)此采取行動(dòng)。
(2)業(yè)務(wù)用戶對(duì)數(shù)據(jù)、圖表和報(bào)告選項(xiàng)的需求已經(jīng)飽和,不管如何優(yōu)雅地推出它們,都沒有太多必要了。業(yè)務(wù)用戶需要的是一種能為其業(yè)務(wù)找出并提供可操作的實(shí)質(zhì)性見解的解決方案。
新平臺(tái)幫助實(shí)現(xiàn)分析的數(shù)據(jù)類型讓企業(yè)可以大大加快分析過程,并且更輕松地將分析結(jié)果重新集成到數(shù)據(jù)倉庫和商情環(huán)境中。在此過程中,它將帶來一些新的商機(jī)。
大數(shù)據(jù)是一股席卷所有行業(yè)、領(lǐng)域和經(jīng)濟(jì)體的“破壞性”力量。不僅企業(yè)信息技術(shù)體系結(jié)構(gòu)需要改變以適應(yīng)它,而且?guī)缀跗髽I(yè)內(nèi)的所有部門都需要針對(duì)其提供的信息、揭示的洞察力做出調(diào)整。數(shù)據(jù)分析將成為業(yè)務(wù)流程的一部分,而不再是僅由經(jīng)過培訓(xùn)的專業(yè)人員履行的獨(dú)特職能。
而這僅僅是開始。一旦企業(yè)開始利用大數(shù)據(jù)獲得洞察力,他們根據(jù)該洞察力采取的行動(dòng)就將具有改進(jìn)業(yè)務(wù)的潛能,這一點(diǎn)目前已得到證實(shí)。如果營銷部門能通過分析社交網(wǎng)絡(luò)評(píng)論獲得對(duì)有關(guān)新品牌推廣活動(dòng)的即時(shí)反饋,焦點(diǎn)小組訪談和客戶調(diào)查是否會(huì)變得過時(shí)?敏銳地了解到大數(shù)據(jù)價(jià)值的新公司不僅會(huì)給現(xiàn)有的競(jìng)爭(zhēng)對(duì)手帶來挑戰(zhàn),還可以開始定義所在行業(yè)的經(jīng)營方式。隨著企業(yè)努力、快速地理解之前所不能捕獲的概念,如情感和品牌認(rèn)知,企業(yè)與客戶關(guān)系也將發(fā)生轉(zhuǎn)變。
發(fā)揮大數(shù)據(jù)的巨大潛能要求對(duì)數(shù)據(jù)管理、分析和信息智能進(jìn)行全盤考慮。在各個(gè)行業(yè),領(lǐng)先利用大數(shù)據(jù)的企業(yè)將能提升運(yùn)營效率,開創(chuàng)新的收入流,發(fā)掘差異競(jìng)爭(zhēng)優(yōu)勢(shì)及全新的業(yè)務(wù)模式。企業(yè)應(yīng)開始從戰(zhàn)略角度考慮如何針對(duì)大數(shù)據(jù)準(zhǔn)備其發(fā)展。
(三)大數(shù)據(jù)的發(fā)展前景
大數(shù)據(jù)由于其本身附帶或隱含特殊的價(jià)值,被類比為新時(shí)代的石油、黃金,甚至被視為“一種與資本與勞動(dòng)力并列的新經(jīng)濟(jì)元素”。也就是說,大數(shù)據(jù)不僅在生產(chǎn)過程中形成產(chǎn)品和產(chǎn)生價(jià)值的環(huán)節(jié)中起著重要的作用,而且其本身更是作為像資本和勞動(dòng)力這樣的生產(chǎn)要素,是產(chǎn)品生產(chǎn)中不可或缺的元素,也是最終產(chǎn)品中不可分割的一部分。
賽迪顧問公司2012年的《大數(shù)據(jù)產(chǎn)業(yè)生態(tài)戰(zhàn)略研究》報(bào)告指出,大數(shù)據(jù)將在以下三個(gè)方面發(fā)揮巨大的作用。
1.大數(shù)據(jù)為新一代信息技術(shù)產(chǎn)業(yè)提供核心支撐
大數(shù)據(jù)問題的爆發(fā)以及大數(shù)據(jù)概念在全球的普及,是現(xiàn)代信息技術(shù)發(fā)展的必經(jīng)階段。互聯(lián)網(wǎng)以及移動(dòng)網(wǎng)絡(luò)的飛速發(fā)展使得網(wǎng)絡(luò)基礎(chǔ)設(shè)施無所不在,網(wǎng)絡(luò)帶寬也在不斷拓展。最新的移動(dòng)4G LTE網(wǎng)絡(luò)將支持166 Mbps的峰值下載速度,下載一部藍(lán)光電影只需4分鐘,這使得人們能夠隨時(shí)隨地進(jìn)行數(shù)據(jù)訪問。而云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興事物的興起和發(fā)展,則使得每時(shí)每刻都在以前所未有的速度產(chǎn)生新數(shù)據(jù)。比如隨著智能電表的普及,電表數(shù)據(jù)的采集頻率由原來的一天一次增加到每15分鐘一次,也就是一天96次,總的數(shù)據(jù)采集規(guī)模將達(dá)到原來的近2萬倍。大數(shù)據(jù)是信息技術(shù)和社會(huì)發(fā)展的產(chǎn)物,而大數(shù)據(jù)問題的解決又會(huì)促進(jìn)云計(jì)算、物聯(lián)網(wǎng)等新興信息技術(shù)的真正落地和應(yīng)用。大數(shù)據(jù)正成為未來新一代信息技術(shù)融合應(yīng)用的核心,為云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等各項(xiàng)新一代信息技術(shù)相關(guān)的應(yīng)用提供堅(jiān)實(shí)的支撐。
2.大數(shù)據(jù)正成為社會(huì)發(fā)展和經(jīng)濟(jì)增長的高速引擎
大數(shù)據(jù)蘊(yùn)含著巨大的社會(huì)、經(jīng)濟(jì)和商業(yè)價(jià)值。大數(shù)據(jù)市場(chǎng)的井噴會(huì)催生一大批面向大數(shù)據(jù)市場(chǎng)的新模式、新技術(shù)、新產(chǎn)品和新服務(wù),進(jìn)而促進(jìn)信息產(chǎn)業(yè)的加速發(fā)展。同時(shí)大數(shù)據(jù)影響著我們工作、生活和學(xué)習(xí)的方方面面,大到國家發(fā)展戰(zhàn)略、區(qū)域經(jīng)濟(jì)發(fā)展以及企業(yè)運(yùn)營決策,小到個(gè)人每天的生活。
從國家發(fā)展戰(zhàn)略層面上來說,大數(shù)據(jù)對(duì)于全球經(jīng)濟(jì)、國計(jì)民生、政策法規(guī)等方面都至關(guān)重要,美國政府把大數(shù)據(jù)的研究和發(fā)展上升到國家戰(zhàn)略層面正是出于這方面的考慮。實(shí)際上,奧巴馬競(jìng)選連任的成功,就是依賴大數(shù)據(jù)的威力。奧巴馬團(tuán)隊(duì)在競(jìng)選取勝中發(fā)揮重要作用的數(shù)據(jù)分析團(tuán)隊(duì)被稱為“核代碼”,其重要性顯而易見。在大選前的兩年中,他的數(shù)據(jù)分析團(tuán)隊(duì)就一直在收集、存儲(chǔ)和分析選民數(shù)據(jù)。大選中的很多戰(zhàn)略方案都是通過分析這些數(shù)據(jù)制定出來的,包括如何籌集競(jìng)選資金,如何進(jìn)行廣告投放,如何拉攏搖擺州選民和制定相應(yīng)的宣傳策略、奧巴馬在競(jìng)選后期應(yīng)當(dāng)在什么地方展開活動(dòng)等。
在區(qū)域規(guī)劃及城市發(fā)展方面,大數(shù)據(jù)在我國正在大力建設(shè)的“智慧城市”中將扮演不可或缺的角色。智慧城市的本質(zhì)是將各行各業(yè)的數(shù)據(jù)關(guān)聯(lián)打通,從中分析挖掘出模式和智能,從而形成城市的智慧聯(lián)動(dòng)。而其中從數(shù)據(jù)的采集到數(shù)據(jù)的分析挖掘,以及形成智能決策的每個(gè)過程,都離不開大數(shù)據(jù)的支撐。智慧城市的建設(shè),將有力地促進(jìn)政務(wù)及社會(huì)化管理,改進(jìn)民生,發(fā)展生產(chǎn),形成一系列有地方特色的、有清晰運(yùn)營模式的新一代智能行業(yè)應(yīng)用。
在企業(yè)發(fā)展方面,大數(shù)據(jù)將助力企業(yè)深度挖掘和利用數(shù)據(jù)中的價(jià)值,完成智能決策,在企業(yè)運(yùn)營中提高效率,節(jié)省成本;在市場(chǎng)競(jìng)爭(zhēng)中制定正確的市場(chǎng)戰(zhàn)略,把握市場(chǎng)先機(jī),規(guī)避市場(chǎng)風(fēng)險(xiǎn);在市場(chǎng)營銷中全面掌握用戶需求,進(jìn)行精準(zhǔn)營銷和個(gè)性化服務(wù)。企業(yè)的決策正在從“應(yīng)用驅(qū)動(dòng)”轉(zhuǎn)向“數(shù)據(jù)驅(qū)動(dòng)”,能夠有效利用大數(shù)據(jù)并將其轉(zhuǎn)化為生產(chǎn)力的企業(yè),將具備核心競(jìng)爭(zhēng)力,成為行業(yè)領(lǐng)導(dǎo)者。
在個(gè)人生活方面,大數(shù)據(jù)已經(jīng)深入與我們生活息息相關(guān)的各個(gè)領(lǐng)域,如休閑娛樂、教育、健康等領(lǐng)域,都能見到大數(shù)據(jù)的應(yīng)用。智能終端的普及更是讓我們和大數(shù)據(jù)的接觸就在指掌之間。比如我們每天發(fā)布微博、更新動(dòng)態(tài),用微信和朋友進(jìn)行語音、文字、圖片的互動(dòng),參與線上課程,帶上健康監(jiān)控手環(huán)監(jiān)控心跳及睡眠的狀況等,這些都離不開大數(shù)據(jù)平臺(tái)對(duì)數(shù)據(jù)存儲(chǔ)、交互和分析的支撐。
3.大數(shù)據(jù)將成為科技創(chuàng)新的新動(dòng)力
各行業(yè)對(duì)大數(shù)據(jù)的實(shí)際需求能夠孵化和衍生出一大批新技術(shù)和新產(chǎn)品,來解決面臨的大數(shù)據(jù)問題,促進(jìn)科技創(chuàng)新。同時(shí),對(duì)數(shù)據(jù)的深度利用,將幫助各行業(yè)從數(shù)據(jù)中挖掘出潛在的應(yīng)用需求、商業(yè)模式、管理模式和服務(wù)模式,這些模式的應(yīng)用將成為開發(fā)新產(chǎn)品和新服務(wù)的驅(qū)動(dòng)力。云計(jì)算及大數(shù)據(jù)平臺(tái)的建設(shè)和發(fā)展,也為科技創(chuàng)新提供了極大的便利條件。比如新型大數(shù)據(jù)應(yīng)用的開發(fā),由于大數(shù)據(jù)的存儲(chǔ)、分析都有相應(yīng)的提供商和接口,開發(fā)者只需將精力集中在應(yīng)用模式和界面上,這將大大降低開發(fā)難度,節(jié)省開發(fā)成本,縮短開發(fā)周期。各國政府及行業(yè)也在積極推動(dòng)開放數(shù)據(jù)。比如美國啟動(dòng)開放政府計(jì)劃,建立了“www.data.gov”網(wǎng)站,將政府運(yùn)營的相關(guān)數(shù)據(jù)全部發(fā)布在網(wǎng)站上,人們能夠方便地查找、下載和使用這些數(shù)據(jù)。實(shí)踐證明,開放數(shù)據(jù)能夠使公共數(shù)據(jù)更加有效地得到利用,能夠促進(jìn)數(shù)據(jù)交叉融合,也將催生新的創(chuàng)新點(diǎn)。
(四)大數(shù)據(jù)變革及趨勢(shì)
1.基于內(nèi)存處理的架構(gòu)
大數(shù)據(jù)技術(shù)的核心是采用分布式技術(shù)、并行技術(shù),將數(shù)據(jù)化整為零,分散處理,而不是依賴單一強(qiáng)大的硬件設(shè)備來集中處理。例如,Hadoop平臺(tái)就是基于廉價(jià)個(gè)人計(jì)算機(jī)(Personal Computer, PC)構(gòu)建的支持大數(shù)據(jù)的分布式并行存儲(chǔ)和計(jì)算集群。而目前,以Berkeley大學(xué)為首的學(xué)院派卻提出了更為先進(jìn)的大數(shù)據(jù)技術(shù)解決方案。Berkeley大學(xué)開發(fā)的Spark平臺(tái)比Hadoop的處理性能高100倍,算法實(shí)現(xiàn)也要簡單很多。同樣都是基于MapReduce框架,Spark為何能夠比Hadoop效率高近百倍?原因是Spark特有的內(nèi)存使用策略,即所有的中間結(jié)果都盡量使用內(nèi)存進(jìn)行存儲(chǔ),避免了費(fèi)時(shí)的中間結(jié)果寫盤操作。Spark已經(jīng)成為Apache孵化項(xiàng)目,并得到了包括IBM、Yahoo在內(nèi)的互聯(lián)網(wǎng)大公司的支持,這說明該策略正逐漸被業(yè)界人士所認(rèn)同。而Berkeley提出的Tachyon項(xiàng)目則更是將內(nèi)存至上理論發(fā)揮到了極致。Tachyon是一個(gè)高容錯(cuò)的分布式文件系統(tǒng),允許文件以內(nèi)存的速度在集群框架中進(jìn)行可靠的共享。Tachyon工作集文件緩存在內(nèi)存中,并且讓不同的Jobs/Queries以及框架都能以內(nèi)存的速度來訪問緩存文件。因此,Tachyon可以減少需要通過訪問磁盤來獲得數(shù)據(jù)集的次數(shù)。
通過最大化地利用內(nèi)存,將傳統(tǒng)系統(tǒng)中磁盤I/O導(dǎo)致的性能損耗全部屏蔽,因此,系統(tǒng)的性能提升上百倍是完全可能的。但人們?cè)趯?nèi)存作為主數(shù)據(jù)存儲(chǔ)時(shí),總會(huì)面臨以下兩個(gè)問題。
(1)如何滿足存儲(chǔ)量的需求?
目前,隨著硬件技術(shù)的發(fā)展,高容量內(nèi)存的制造成本大大降低,即使在家庭電腦上也可以輕易讀取到8GB乃至16GB內(nèi)存。可以預(yù)言,不出10年,TB級(jí)的內(nèi)存將被普及,那時(shí)數(shù)據(jù)內(nèi)存存儲(chǔ)量也許將不再是問題。
(2)內(nèi)存是易失性存儲(chǔ),數(shù)據(jù)如何持久化?
在斷電或突發(fā)狀況下,內(nèi)存數(shù)據(jù)將會(huì)丟失,這是人們不愿意使用內(nèi)存作為主數(shù)據(jù)存儲(chǔ)的主要原因之一。從單機(jī)角度來看,內(nèi)存存儲(chǔ)數(shù)據(jù)確實(shí)存在極大的風(fēng)險(xiǎn),解決該問題可以從兩個(gè)角度考慮。
首先,要明確數(shù)據(jù)持久化的含義到底是什么。傳統(tǒng)的思路認(rèn)為,數(shù)據(jù)持久化就是將數(shù)據(jù)放置到硬盤等介質(zhì)中。但就持久化的本意而言,數(shù)據(jù)如果能夠隨時(shí)被讀出,保證不丟失,我們就可以稱之為數(shù)據(jù)持久化。因此,當(dāng)系統(tǒng)從單機(jī)架構(gòu)轉(zhuǎn)為分布式架構(gòu)時(shí),可以認(rèn)為只要保證在任何時(shí)間集群中至少有一份正確數(shù)據(jù)可以被讀取,則系統(tǒng)就是持久化的。例如Hadoop的多數(shù)據(jù)備份,就是大數(shù)據(jù)技術(shù)下持久化概念的體現(xiàn)。所以在大數(shù)據(jù)時(shí)代,可以通過分布式多份存儲(chǔ)的方式保證數(shù)據(jù)的完整性和可靠性。
其次,隨著固態(tài)硬盤(Solid State Drives, SSD)的全面普及,內(nèi)存加SSD的硬件架構(gòu)體系將應(yīng)用得越來越多。充分利用內(nèi)存進(jìn)行快速讀寫,同時(shí)使用順序?qū)懙姆绞皆赟SD中進(jìn)行操作記錄,保證機(jī)器恢復(fù)時(shí)能夠通過日志實(shí)現(xiàn)數(shù)據(jù)重現(xiàn),也是實(shí)現(xiàn)內(nèi)存數(shù)據(jù)持久化的一種有效方案。
綜上所述,隨著硬件的發(fā)展以及分布式系統(tǒng)架構(gòu)的普及,如何更好地利用內(nèi)存,提高計(jì)算效率,將是大數(shù)據(jù)技術(shù)發(fā)展中的重要問題。
2.實(shí)時(shí)計(jì)算將蓬勃發(fā)展
大數(shù)據(jù)問題的爆發(fā)催生了像Hadoop這樣的大規(guī)模存儲(chǔ)和處理系統(tǒng),以及其在世界范圍內(nèi)的普及與應(yīng)用,然而這類平臺(tái)只是解決了基本的大數(shù)據(jù)存儲(chǔ)和海量數(shù)據(jù)離線處理的問題。隨著數(shù)據(jù)的不斷增多,以及各行業(yè)對(duì)數(shù)據(jù)所隱藏的巨大價(jià)值潛力的不斷認(rèn)知和發(fā)掘,人們對(duì)大數(shù)據(jù)處理的時(shí)效性需求將不斷增加。在當(dāng)今快速發(fā)展的信息世界里,企業(yè)的生死存亡取決于其分析數(shù)據(jù)并據(jù)此做出清晰而明智決策的能力。隨著決策周期的持續(xù)縮短,許多企業(yè)無法等待緩慢的分析結(jié)果。比如,在線社交網(wǎng)站需要實(shí)時(shí)統(tǒng)計(jì)用戶的連接、發(fā)帖等信息;零售企業(yè)需要在幾秒鐘而不是幾個(gè)小時(shí)之內(nèi)根據(jù)客戶數(shù)據(jù)制定促銷計(jì)劃;金融服務(wù)企業(yè)需要在幾分鐘而不是幾天內(nèi)完成在線交易的風(fēng)險(xiǎn)分析。未來的大數(shù)據(jù)技術(shù)必須為實(shí)時(shí)應(yīng)用和服務(wù)提供高速和連續(xù)的數(shù)據(jù)分析和處理。
3.大數(shù)據(jù)交互方式移動(dòng)化、泛在化
隨著大數(shù)據(jù)后臺(tái)處理能力和時(shí)效性的不斷提高,以及各行業(yè)數(shù)據(jù)的全面采集和深度融合,數(shù)據(jù)的多維度、全方位的分析和展示將形成。而飛速發(fā)展的移動(dòng)互聯(lián)網(wǎng),尤其是普及的移動(dòng)終端和4G技術(shù),能夠在功能上將數(shù)據(jù)的展示交互與后臺(tái)處理有效地分離,但同時(shí)又能將它們通過移動(dòng)網(wǎng)絡(luò)高效地聯(lián)結(jié)起來。當(dāng)今正在崛起的可穿戴設(shè)備和技術(shù)能夠隨時(shí)隨地感知或采集我們周圍的環(huán)境信息及我們自身的數(shù)據(jù),并將它們與云端的存儲(chǔ)和處理相結(jié)合,以提供實(shí)時(shí)的工作、生活、休閑、娛樂、醫(yī)療健康等各方面的數(shù)據(jù)交互服務(wù)。可以預(yù)見,未來大數(shù)據(jù)的采集、展現(xiàn)和交互必將朝著移動(dòng)化的、即時(shí)的、泛在的方向發(fā)展。