- 大數(shù)據(jù)技術原理與應用(第2版)
- 林子雨編著
- 4096字
- 2019-07-30 13:20:22
1.1 大數(shù)據(jù)時代
第三次信息化浪潮涌動,大數(shù)據(jù)時代全面開啟。人類社會信息科技的發(fā)展為大數(shù)據(jù)時代的到來提供了技術支撐,而數(shù)據(jù)產(chǎn)生方式的變革是促進大數(shù)據(jù)時代到來至關重要的因素。
1.1.1 第三次信息化浪潮
根據(jù)IBM前首席執(zhí)行官郭士納的觀點,IT領域每隔15年就會迎來一次重大變革(見表1-1)。1980年前后,個人計算機(PC)開始普及,使得計算機走入企業(yè)和千家萬戶,大大提高了社會生產(chǎn)力,也使人類迎來了第一次信息化浪潮,Intel、IBM、蘋果、微軟、聯(lián)想等企業(yè)是這個時期的標志。隨后,在1995年前后,人類開始全面進入互聯(lián)網(wǎng)時代,互聯(lián)網(wǎng)的普及把世界變成“地球村”,每個人都可以自由徜徉于信息的海洋,由此,人類迎來了第二次信息化浪潮,這個時期也締造了雅虎、谷歌、阿里巴巴、百度等互聯(lián)網(wǎng)巨頭。時隔15年,在2010年前后,云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)的快速發(fā)展,拉開了第三次信息化浪潮的大幕,大數(shù)據(jù)時代已經(jīng)到來,也必將涌現(xiàn)出一批新的市場標桿企業(yè)。
表1-1 三次信息化浪潮

1.1.2 信息科技為大數(shù)據(jù)時代提供技術支撐
信息科技需要解決信息存儲、信息傳輸和信息處理3個核心問題,人類社會在信息科技領域的不斷進步,為大數(shù)據(jù)時代的到來提供了技術支撐。
1.存儲設備容量不斷增加
數(shù)據(jù)被存儲在磁盤、磁帶、光盤、閃存等各種類型的存儲介質中,隨著科學技術的不斷進步,存儲設備的制造工藝不斷升級,容量大幅增加,速度不斷提升,價格卻在不斷下降(見圖1-1)。

圖1-1 存儲設備的價格隨時間變化的情況
早期的存儲設備容量小、價格高、體積大,例如,IBM在1956年生產(chǎn)的一個早期的商業(yè)硬盤,容量只有5MB,不僅價格昂貴,而且體積有一個冰箱那么大(見圖1-2)。相反,今天容量為1TB的硬盤,大小只有3.5英寸(約8.89cm),讀寫速度達到200MB/s,價格僅為400元左右。廉價、高性能的硬盤存儲設備,不僅提供了海量的存儲空間,同時大大降低了數(shù)據(jù)存儲成本。
與此同時,以閃存為代表的新型存儲介質也開始得到大規(guī)模的普及和應用。閃存是一種新興的半導體存儲器,從1989年誕生第一款閃存產(chǎn)品開始,閃存技術不斷獲得新的突破,并逐漸在計算機存儲產(chǎn)品市場中確立了自己的重要地位。閃存是一種非易失性存儲器,即使發(fā)生斷電也不會丟失數(shù)據(jù);因此,可以作為永久性存儲設備,它具有體積小、質量輕、能耗低、抗振性好等優(yōu)良特性。

圖1-2 IBM在1956年生產(chǎn)的一個早期的商業(yè)硬盤
閃存芯片可以被封裝制作成SD卡、U盤和固態(tài)盤等各種存儲產(chǎn)品,SD卡和U盤主要用于個人數(shù)據(jù)存儲,固態(tài)盤則越來越多地應用于企業(yè)級數(shù)據(jù)存儲。一個 32GB 的 SD 卡,體積只有24 mm×32 mm×2.1 mm,質量只有0.5g。以前7 200 r/min的硬盤,一秒鐘讀寫次數(shù)只有100 IOPS (Input/Output Operations Per Second),傳輸速率只有50 MB/s,而現(xiàn)在基于閃存的固態(tài)盤,每秒鐘讀寫次數(shù)有幾萬甚至更高的IOPS,訪問延遲只有幾十微秒,允許我們以更快的速度讀寫數(shù)據(jù)。
總體而言,數(shù)據(jù)量和存儲設備容量二者之間是相輔相成、互相促進的。一方面,隨著數(shù)據(jù)的不斷產(chǎn)生,需要存儲的數(shù)據(jù)量不斷增加,對存儲設備的容量提出了更高的要求,促使存儲設備生產(chǎn)商制造更大容量的產(chǎn)品滿足市場需求;另一方面,更大容量的存儲設備進一步加快了數(shù)據(jù)量增長的速度,在存儲設備價格高企的年代,由于考慮到成本問題,一些不必要或當前不能明顯體現(xiàn)價值的數(shù)據(jù)往往會被丟棄。但是,隨著單位存儲空間價格的不斷降低,人們開始傾向于把更多的數(shù)據(jù)保存起來,以期在未來某個時刻可以用更先進的數(shù)據(jù)分析工具從中挖掘價值。
2.CPU處理能力大幅提升
CPU處理速度的不斷提升也是促使數(shù)據(jù)量不斷增加的重要因素。性能不斷提升的CPU,大大提高了處理數(shù)據(jù)的能力,使得我們可以更快地處理不斷累積的海量數(shù)據(jù)。從20世紀80年代至今,CPU的制造工藝不斷提升,晶體管數(shù)量不斷增加(見圖1-3),運行頻率不斷提高,核心(Core)數(shù)量逐漸增多,而同等價格所能獲得的CPU處理能力也呈幾何級數(shù)上升。在30多年里,CPU的處理速度已經(jīng)從10 MHz提高到3.6 GHz,在2013年之前的很長一段時期,CPU處理速度的增加一直遵循“摩爾定律”,性能每隔18個月提高一倍,價格下降一半。

圖1-3 CPU晶體管數(shù)目隨時間變化的情況
3.網(wǎng)絡帶寬不斷增加
1977年,世界上第一條光纖通信系統(tǒng)在美國芝加哥市投入商用,數(shù)據(jù)傳輸速率為45 Mbit/s,從此,人類社會的信息傳輸速度不斷被刷新。進入21世紀,世界各國更是紛紛加大寬帶網(wǎng)絡建設力度,不斷擴大網(wǎng)絡覆蓋范圍和傳輸速度(見圖1-4)。以我國為例,截至2012年6月,92.6%的固定寬帶用戶接入速率達到或超過2 Mbit/s,國際互聯(lián)網(wǎng)出口帶寬達到1.48 Tbit/s,是2005年的11.4倍。與此同時,移動通信寬帶網(wǎng)絡迅速發(fā)展,3G網(wǎng)絡基本普及,4G網(wǎng)絡覆蓋范圍不斷加大,各種終端設備可以隨時隨地傳輸數(shù)據(jù)。大數(shù)據(jù)時代,信息傳輸不再遭遇網(wǎng)絡發(fā)展初期的瓶頸和制約。

圖1-4 網(wǎng)絡帶寬隨時間變化的情況
1.1.3 數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時代的來臨
數(shù)據(jù)是我們通過觀察、實驗或計算得出的結果。數(shù)據(jù)和信息是兩個不同的概念。信息是較為宏觀的概念,它由數(shù)據(jù)的有序排列組合而成,傳達給讀者某個概念方法等;而數(shù)據(jù)則是構成信息的基本單位,離散的數(shù)據(jù)沒有任何實用價值。
數(shù)據(jù)有很多種,比如數(shù)字、文字、圖像、聲音等。隨著人類社會信息化進程的加快,我們在日常生產(chǎn)和生活中每天都會產(chǎn)生大量的數(shù)據(jù),比如商業(yè)網(wǎng)站、政務系統(tǒng)、零售系統(tǒng)、辦公系統(tǒng)、自動化生產(chǎn)系統(tǒng)等,每時每刻都在不斷產(chǎn)生數(shù)據(jù)。數(shù)據(jù)已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產(chǎn)因素,從創(chuàng)新到所有決策,數(shù)據(jù)推動著企業(yè)的發(fā)展,并使得各級組織的運營更為高效,可以這樣說,數(shù)據(jù)將成為每個企業(yè)獲取核心競爭力的關鍵要素。數(shù)據(jù)資源已經(jīng)和物質資源、人力資源一樣成為國家的重要戰(zhàn)略資源,影響著國家和社會的安全、穩(wěn)定與發(fā)展,因此,數(shù)據(jù)也被稱為“未來的石油”。
數(shù)據(jù)產(chǎn)生方式的變革,是促成大數(shù)據(jù)時代來臨的重要因素。總體而言,人類社會的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個階段:運營式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段和感知式系統(tǒng)階段(見圖1-5)。

圖1-5 數(shù)據(jù)產(chǎn)生方式的變革
1.運營式系統(tǒng)階段
人類社會最早大規(guī)模管理和使用數(shù)據(jù),是從數(shù)據(jù)庫的誕生開始的。大型零售超市銷售系統(tǒng)、銀行交易系統(tǒng)、股市交易系統(tǒng)、醫(yī)院醫(yī)療系統(tǒng)、企業(yè)客戶管理系統(tǒng)等大量運營式系統(tǒng),都是建立在數(shù)據(jù)庫基礎之上的,數(shù)據(jù)庫中保存了大量結構化的企業(yè)關鍵信息,用來滿足企業(yè)各種業(yè)務需求。在這個階段,數(shù)據(jù)的產(chǎn)生方式是被動的,只有當實際的企業(yè)業(yè)務發(fā)生時,才會產(chǎn)生新的記錄并存入數(shù)據(jù)庫。比如,對于股市交易系統(tǒng)而言,只有當發(fā)生一筆股票交易時,才會有相關記錄生成。
2.用戶原創(chuàng)內(nèi)容階段
互聯(lián)網(wǎng)的出現(xiàn),使得數(shù)據(jù)傳播更加快捷,不需要借助于磁盤、磁帶等物理存儲介質傳播數(shù)據(jù),網(wǎng)頁的出現(xiàn)進一步加速了大量網(wǎng)絡內(nèi)容的產(chǎn)生,從而使得人類社會數(shù)據(jù)量開始呈現(xiàn)“井噴式”增長。但是,互聯(lián)網(wǎng)真正的數(shù)據(jù)爆發(fā)產(chǎn)生于以“用戶原創(chuàng)內(nèi)容”為特征的Web 2.0時代。Web 1.0時代主要以門戶網(wǎng)站為代表,強調內(nèi)容的組織與提供,大量上網(wǎng)用戶本身并不參與內(nèi)容的產(chǎn)生。而Web 2.0技術以Wiki、博客、微博、微信等自服務模式為主,強調自服務,大量上網(wǎng)用戶本身就是內(nèi)容的生成者,尤其是隨著移動互聯(lián)網(wǎng)和智能手機終端的普及,人們更是可以隨時隨地使用手機發(fā)微博、傳照片,數(shù)據(jù)量開始急劇增加。
3.感知式系統(tǒng)階段
物聯(lián)網(wǎng)的發(fā)展最終導致了人類社會數(shù)據(jù)量的第三次躍升。物聯(lián)網(wǎng)中包含大量傳感器,如溫度傳感器、濕度傳感器、壓力傳感器、位移傳感器、光電傳感器等,此外,視頻監(jiān)控攝像頭也是物聯(lián)網(wǎng)的重要組成部分。物聯(lián)網(wǎng)中的這些設備,每時每刻都在自動產(chǎn)生大量數(shù)據(jù),與Web 2.0時代的人工數(shù)據(jù)產(chǎn)生方式相比,物聯(lián)網(wǎng)中的自動數(shù)據(jù)產(chǎn)生方式,將在短時間內(nèi)生成更密集、更大量的數(shù)據(jù),使得人類社會迅速步入“大數(shù)據(jù)時代”。
1.1.4 大數(shù)據(jù)的發(fā)展歷程
大數(shù)據(jù)的發(fā)展歷程總體上可以劃分為3個重要階段:萌芽期、成熟期和大規(guī)模應用期(見表1-2)。
表1-2 大數(shù)據(jù)發(fā)展的3個階段

這里簡要回顧一下大數(shù)據(jù)的發(fā)展歷程。
● 1980 年,著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中,將大數(shù)據(jù)熱情地贊頌為“第三次浪潮的華彩樂章”。
● 1997年10月,邁克爾·考克斯和大衛(wèi)·埃爾斯沃思在第八屆美國電氣和電子工程師協(xié)會(IEEE)關于可視化的會議論文集中,發(fā)表了《為外存模型可視化而應用控制程序請求頁面調度》的文章,這是在美國計算機學會的數(shù)字圖書館中第一篇使用“大數(shù)據(jù)”這一術語的文章。
● 1999年10月,在美國電氣和電子工程師協(xié)會(IEEE)關于可視化的年會上,設置了名為“自動化或者交互:什么更適合大數(shù)據(jù)?”的專題討論小組,探討大數(shù)據(jù)問題。
● 2001年2月,梅塔集團分析師道格·萊尼發(fā)布題為《3D數(shù)據(jù)管理:控制數(shù)據(jù)容量、處理速度及數(shù)據(jù)種類》的研究報告。10年后,“3V”(Volume、Variety和Velocity)作為定義大數(shù)據(jù)的三個維度而被廣泛接受。
● 2005年9月,蒂姆·奧萊利發(fā)表了《什么是Web 2.0》一文,并在文中指出“數(shù)據(jù)將是下一項技術核心”。
● 2008年,《自然》雜志推出大數(shù)據(jù)專刊;計算社區(qū)聯(lián)盟(Computing Community Consortium)發(fā)表了報告《大數(shù)據(jù)計算:在商業(yè)、科學和社會領域的革命性突破》,闡述了大數(shù)據(jù)技術及其面臨的一些挑戰(zhàn)。
● 2010年2月,肯尼斯·庫克爾在《經(jīng)濟學人》上發(fā)表了一份關于管理信息的特別報告《數(shù)據(jù),無所不在的數(shù)據(jù)》。
● 2011年2月,《科學》雜志推出專刊《處理數(shù)據(jù)》,討論了科學研究中的大數(shù)據(jù)問題。
● 2011年,維克托·邁爾·舍恩伯格出版著作《大數(shù)據(jù)時代:生活、工作與思維的大變革》,引起轟動。
● 2011 年 5 月,麥肯錫全球研究院發(fā)布《大數(shù)據(jù):下一個具有創(chuàng)新力、競爭力與生產(chǎn)力的前沿領域》,提出“大數(shù)據(jù)”時代到來。
● 2012年3月,美國奧巴馬政府發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,正式啟動“大數(shù)據(jù)發(fā)展計劃”,大數(shù)據(jù)上升為美國國家發(fā)展戰(zhàn)略,被視為美國政府繼信息高速公路計劃之后在信息科學領域的又一重大舉措。
● 2013年12月,中國計算機學會發(fā)布《中國大數(shù)據(jù)技術與產(chǎn)業(yè)發(fā)展白皮書》,系統(tǒng)總結了大數(shù)據(jù)的核心科學與技術問題,推動了我國大數(shù)據(jù)學科的建設與發(fā)展,并為政府部門提供了戰(zhàn)略性的意見與建議。
● 2014年5月,美國政府發(fā)布2014年全球“大數(shù)據(jù)”白皮書《大數(shù)據(jù):抓住機遇、守護價值》,報告鼓勵使用數(shù)據(jù)來推動社會進步。
● 2015年8月,國務院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,全面推進我國大數(shù)據(jù)發(fā)展和應用,加快建設數(shù)據(jù)強國。
● 2016年5月,在“2016大數(shù)據(jù)產(chǎn)業(yè)峰會”上工信部透露,我國將制定出臺大數(shù)據(jù)產(chǎn)業(yè)“十三五”發(fā)展規(guī)劃,有力推進我國大數(shù)據(jù)技術創(chuàng)新和產(chǎn)業(yè)發(fā)展。
- Div+CSS 3.0網(wǎng)頁布局案例精粹
- Ansible Quick Start Guide
- 網(wǎng)絡綜合布線技術
- 計算機網(wǎng)絡應用基礎
- Visual Basic從初學到精通
- Photoshop CS3圖像處理融會貫通
- JavaScript典型應用與最佳實踐
- Ruby on Rails敏捷開發(fā)最佳實踐
- 傳感器與新聞
- Windows Server 2003系統(tǒng)安全管理
- 奇點將至
- Bayesian Analysis with Python
- Mastering Ansible(Second Edition)
- PowerMill 2020五軸數(shù)控加工編程應用實例
- JRuby語言實戰(zhàn)技術