官术网_书友最值得收藏!

1.1 大數據時代

第三次信息化浪潮涌動,大數據時代全面開啟。人類社會信息科技的發展為大數據時代的到來提供了技術支撐,而數據產生方式的變革是促進大數據時代到來至關重要的因素。

1.1.1 第三次信息化浪潮

根據IBM前首席執行官郭士納的觀點,IT領域每隔15年就會迎來一次重大變革(見表1-1)。1980年前后,個人計算機(PC)開始普及,使得計算機走入企業和千家萬戶,大大提高了社會生產力,也使人類迎來了第一次信息化浪潮,Intel、IBM、蘋果、微軟、聯想等企業是這個時期的標志。隨后,在1995年前后,人類開始全面進入互聯網時代,互聯網的普及把世界變成“地球村”,每個人都可以自由徜徉于信息的海洋,由此,人類迎來了第二次信息化浪潮,這個時期也締造了雅虎、谷歌、阿里巴巴、百度等互聯網巨頭。時隔15年,在2010年前后,云計算、大數據、物聯網的快速發展,拉開了第三次信息化浪潮的大幕,大數據時代已經到來,也必將涌現出一批新的市場標桿企業。

表1-1 三次信息化浪潮

1.1.2 信息科技為大數據時代提供技術支撐

信息科技需要解決信息存儲、信息傳輸和信息處理3個核心問題,人類社會在信息科技領域的不斷進步,為大數據時代的到來提供了技術支撐。

1.存儲設備容量不斷增加

數據被存儲在磁盤、磁帶、光盤、閃存等各種類型的存儲介質中,隨著科學技術的不斷進步,存儲設備的制造工藝不斷升級,容量大幅增加,速度不斷提升,價格卻在不斷下降(見圖1-1)。

圖1-1 存儲設備的價格隨時間變化的情況

早期的存儲設備容量小、價格高、體積大,例如,IBM在1956年生產的一個早期的商業硬盤,容量只有5MB,不僅價格昂貴,而且體積有一個冰箱那么大(見圖1-2)。相反,今天容量為1TB的硬盤,大小只有3.5英寸(約8.89cm),讀寫速度達到200MB/s,價格僅為400元左右。廉價、高性能的硬盤存儲設備,不僅提供了海量的存儲空間,同時大大降低了數據存儲成本。

與此同時,以閃存為代表的新型存儲介質也開始得到大規模的普及和應用。閃存是一種新興的半導體存儲器,從1989年誕生第一款閃存產品開始,閃存技術不斷獲得新的突破,并逐漸在計算機存儲產品市場中確立了自己的重要地位。閃存是一種非易失性存儲器,即使發生斷電也不會丟失數據;因此,可以作為永久性存儲設備,它具有體積小、質量輕、能耗低、抗振性好等優良特性。

圖1-2 IBM在1956年生產的一個早期的商業硬盤

閃存芯片可以被封裝制作成SD卡、U盤和固態盤等各種存儲產品,SD卡和U盤主要用于個人數據存儲,固態盤則越來越多地應用于企業級數據存儲。一個 32GB 的 SD 卡,體積只有24 mm×32 mm×2.1 mm,質量只有0.5g。以前7 200 r/min的硬盤,一秒鐘讀寫次數只有100 IOPS (Input/Output Operations Per Second),傳輸速率只有50 MB/s,而現在基于閃存的固態盤,每秒鐘讀寫次數有幾萬甚至更高的IOPS,訪問延遲只有幾十微秒,允許我們以更快的速度讀寫數據。

總體而言,數據量和存儲設備容量二者之間是相輔相成、互相促進的。一方面,隨著數據的不斷產生,需要存儲的數據量不斷增加,對存儲設備的容量提出了更高的要求,促使存儲設備生產商制造更大容量的產品滿足市場需求;另一方面,更大容量的存儲設備進一步加快了數據量增長的速度,在存儲設備價格高企的年代,由于考慮到成本問題,一些不必要或當前不能明顯體現價值的數據往往會被丟棄。但是,隨著單位存儲空間價格的不斷降低,人們開始傾向于把更多的數據保存起來,以期在未來某個時刻可以用更先進的數據分析工具從中挖掘價值。

2.CPU處理能力大幅提升

CPU處理速度的不斷提升也是促使數據量不斷增加的重要因素。性能不斷提升的CPU,大大提高了處理數據的能力,使得我們可以更快地處理不斷累積的海量數據。從20世紀80年代至今,CPU的制造工藝不斷提升,晶體管數量不斷增加(見圖1-3),運行頻率不斷提高,核心(Core)數量逐漸增多,而同等價格所能獲得的CPU處理能力也呈幾何級數上升。在30多年里,CPU的處理速度已經從10 MHz提高到3.6 GHz,在2013年之前的很長一段時期,CPU處理速度的增加一直遵循“摩爾定律”,性能每隔18個月提高一倍,價格下降一半。

圖1-3 CPU晶體管數目隨時間變化的情況

3.網絡帶寬不斷增加

1977年,世界上第一條光纖通信系統在美國芝加哥市投入商用,數據傳輸速率為45 Mbit/s,從此,人類社會的信息傳輸速度不斷被刷新。進入21世紀,世界各國更是紛紛加大寬帶網絡建設力度,不斷擴大網絡覆蓋范圍和傳輸速度(見圖1-4)。以我國為例,截至2012年6月,92.6%的固定寬帶用戶接入速率達到或超過2 Mbit/s,國際互聯網出口帶寬達到1.48 Tbit/s,是2005年的11.4倍。與此同時,移動通信寬帶網絡迅速發展,3G網絡基本普及,4G網絡覆蓋范圍不斷加大,各種終端設備可以隨時隨地傳輸數據。大數據時代,信息傳輸不再遭遇網絡發展初期的瓶頸和制約。

圖1-4 網絡帶寬隨時間變化的情況

1.1.3 數據產生方式的變革促成大數據時代的來臨

數據是我們通過觀察、實驗或計算得出的結果。數據和信息是兩個不同的概念。信息是較為宏觀的概念,它由數據的有序排列組合而成,傳達給讀者某個概念方法等;而數據則是構成信息的基本單位,離散的數據沒有任何實用價值。

數據有很多種,比如數字、文字、圖像、聲音等。隨著人類社會信息化進程的加快,我們在日常生產和生活中每天都會產生大量的數據,比如商業網站、政務系統、零售系統、辦公系統、自動化生產系統等,每時每刻都在不斷產生數據。數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素,從創新到所有決策,數據推動著企業的發展,并使得各級組織的運營更為高效,可以這樣說,數據將成為每個企業獲取核心競爭力的關鍵要素。數據資源已經和物質資源、人力資源一樣成為國家的重要戰略資源,影響著國家和社會的安全、穩定與發展,因此,數據也被稱為“未來的石油”。

數據產生方式的變革,是促成大數據時代來臨的重要因素。總體而言,人類社會的數據產生方式大致經歷了3個階段:運營式系統階段、用戶原創內容階段和感知式系統階段(見圖1-5)。

圖1-5 數據產生方式的變革

1.運營式系統階段

人類社會最早大規模管理和使用數據,是從數據庫的誕生開始的。大型零售超市銷售系統、銀行交易系統、股市交易系統、醫院醫療系統、企業客戶管理系統等大量運營式系統,都是建立在數據庫基礎之上的,數據庫中保存了大量結構化的企業關鍵信息,用來滿足企業各種業務需求。在這個階段,數據的產生方式是被動的,只有當實際的企業業務發生時,才會產生新的記錄并存入數據庫。比如,對于股市交易系統而言,只有當發生一筆股票交易時,才會有相關記錄生成。

2.用戶原創內容階段

互聯網的出現,使得數據傳播更加快捷,不需要借助于磁盤、磁帶等物理存儲介質傳播數據,網頁的出現進一步加速了大量網絡內容的產生,從而使得人類社會數據量開始呈現“井噴式”增長。但是,互聯網真正的數據爆發產生于以“用戶原創內容”為特征的Web 2.0時代。Web 1.0時代主要以門戶網站為代表,強調內容的組織與提供,大量上網用戶本身并不參與內容的產生。而Web 2.0技術以Wiki、博客、微博、微信等自服務模式為主,強調自服務,大量上網用戶本身就是內容的生成者,尤其是隨著移動互聯網和智能手機終端的普及,人們更是可以隨時隨地使用手機發微博、傳照片,數據量開始急劇增加。

3.感知式系統階段

物聯網的發展最終導致了人類社會數據量的第三次躍升。物聯網中包含大量傳感器,如溫度傳感器、濕度傳感器、壓力傳感器、位移傳感器、光電傳感器等,此外,視頻監控攝像頭也是物聯網的重要組成部分。物聯網中的這些設備,每時每刻都在自動產生大量數據,與Web 2.0時代的人工數據產生方式相比,物聯網中的自動數據產生方式,將在短時間內生成更密集、更大量的數據,使得人類社會迅速步入“大數據時代”。

1.1.4 大數據的發展歷程

大數據的發展歷程總體上可以劃分為3個重要階段:萌芽期、成熟期和大規模應用期(見表1-2)。

表1-2 大數據發展的3個階段

這里簡要回顧一下大數據的發展歷程。

● 1980 年,著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中,將大數據熱情地贊頌為“第三次浪潮的華彩樂章”。

● 1997年10月,邁克爾·考克斯和大衛·埃爾斯沃思在第八屆美國電氣和電子工程師協會(IEEE)關于可視化的會議論文集中,發表了《為外存模型可視化而應用控制程序請求頁面調度》的文章,這是在美國計算機學會的數字圖書館中第一篇使用“大數據”這一術語的文章。

● 1999年10月,在美國電氣和電子工程師協會(IEEE)關于可視化的年會上,設置了名為“自動化或者交互:什么更適合大數據?”的專題討論小組,探討大數據問題。

● 2001年2月,梅塔集團分析師道格·萊尼發布題為《3D數據管理:控制數據容量、處理速度及數據種類》的研究報告。10年后,“3V”(Volume、Variety和Velocity)作為定義大數據的三個維度而被廣泛接受。

● 2005年9月,蒂姆·奧萊利發表了《什么是Web 2.0》一文,并在文中指出“數據將是下一項技術核心”。

● 2008年,《自然》雜志推出大數據專刊;計算社區聯盟(Computing Community Consortium)發表了報告《大數據計算:在商業、科學和社會領域的革命性突破》,闡述了大數據技術及其面臨的一些挑戰。

● 2010年2月,肯尼斯·庫克爾在《經濟學人》上發表了一份關于管理信息的特別報告《數據,無所不在的數據》。

● 2011年2月,《科學》雜志推出專刊《處理數據》,討論了科學研究中的大數據問題。

● 2011年,維克托·邁爾·舍恩伯格出版著作《大數據時代:生活、工作與思維的大變革》,引起轟動。

● 2011 年 5 月,麥肯錫全球研究院發布《大數據:下一個具有創新力、競爭力與生產力的前沿領域》,提出“大數據”時代到來。

● 2012年3月,美國奧巴馬政府發布了《大數據研究和發展倡議》,正式啟動“大數據發展計劃”,大數據上升為美國國家發展戰略,被視為美國政府繼信息高速公路計劃之后在信息科學領域的又一重大舉措。

● 2013年12月,中國計算機學會發布《中國大數據技術與產業發展白皮書》,系統總結了大數據的核心科學與技術問題,推動了我國大數據學科的建設與發展,并為政府部門提供了戰略性的意見與建議。

● 2014年5月,美國政府發布2014年全球“大數據”白皮書《大數據:抓住機遇、守護價值》,報告鼓勵使用數據來推動社會進步。

● 2015年8月,國務院印發《促進大數據發展行動綱要》,全面推進我國大數據發展和應用,加快建設數據強國。

● 2016年5月,在“2016大數據產業峰會”上工信部透露,我國將制定出臺大數據產業“十三五”發展規劃,有力推進我國大數據技術創新和產業發展。

主站蜘蛛池模板: 宿迁市| 馆陶县| 赫章县| 安化县| 台东市| 广南县| 衢州市| 富川| 河南省| 定日县| 佳木斯市| 噶尔县| 林州市| 麟游县| 泗洪县| 清河县| 芮城县| 博罗县| 敖汉旗| 南宁市| 土默特左旗| 且末县| 平南县| 正宁县| 婺源县| 梁山县| 武冈市| 新河县| 大兴区| 城市| 吉木乃县| 乾安县| 武安市| 句容市| 堆龙德庆县| 清流县| 肥乡县| 静乐县| 香河县| 逊克县| 齐齐哈尔市|