官术网_书友最值得收藏!

任務1 概述大數據的內涵

【任務概述】

大數據已成為社會各界研究及關注的焦點。本任務著重介紹大數據的內在含義,其中包括大數據的多種定義表述、大數據產生的原因、大數據特性的演進以及在大數據時代才出現的一些數據計量單位。

【支撐知識】

近幾年,大數據迅速發展成為科技界和企業界甚至世界各國政府關注的熱點。人們對于大數據的挖掘和運用,預示著新一波生產力增長和消費盈余浪潮的到來。美國政府認為大數據是“未來的鉆石礦和新石油”,一個國家擁有數據的規模和運用數據的能力將成為綜合國力的重要組成部分,對數據的占有和控制將成為國家間和企業間新的爭奪焦點。全球著名管理咨詢公司麥肯錫(McKinsey&Company)首先提出了“大數據時代”的到來并聲稱:“數據已經滲透到當今各行各業的職能領域,成為重要的生產因素。”

數據的產生方式由“人機”“機物”的二元世界向著融合社會資源信息系統及物理資源的三元世界轉變,數據規模呈膨脹式發展,例如,互聯網領域中,谷歌搜索引擎的每秒使用用戶量達到200萬;科研領域中,僅某大型強子對撞機在一年內積累的新數據量就達到15PB左右;電子商務領域中,eBay的分析平臺每天處理的數據量高達100PB,超過了納斯達克交易所每天的數據處理量;“雙十一”大型商業活動中,淘寶商城屢創神話,銷售額由2010年的9億元一路攀升到現今的1200多億元,支付寶平臺平均每秒成功交易12萬筆,交易覆蓋235個國家和地區;航空航天領域中,僅一架雙引擎波音737飛機在橫貫大陸飛行的過程中,傳感器網絡便會產生近240TB的數據。綜合各個領域,目前積累的數據量已經從TB量級上升至PB、EB甚至已經達到ZB量級,其數據規模已經遠遠超出了現有通用計算機所能夠處理的量級。

根據全球著名咨詢機構互聯網數據中心(Internet Data Center, IDC)做出的估測,人類社會產生的數據一直都在以每年50%的速度增長,也就是說,每兩年數據量就會增加一倍,即已形成了“大數據摩爾定律”,這意味著人類在最近兩年產生的數據量相當于之前產生的全部數據量之和。據IDC統計,2011年全球被創建和復制的數據總量為1.8ZB,到2020年這一數據將攀升到40ZB,是2012年的12倍。而我國的數據量到2020年將超過8ZB,是2012年的22倍。其中80%以上來自于個人(主要是圖片、視頻和音樂),遠遠超過人類有史以來所有印刷材料的數據總量(200PB)。目前,全球的數據量正以每18個月翻一番的速度呈膨脹式增長,數據量的飛速增長同時也帶來了大數據技術和服務市場的繁榮發展。

一、大數據的定義

“大數據”一詞由英文“Big Data”翻譯而來,是近幾年興起的概念。往前追溯卻發現由來已久,早在1980年就已由美國著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中,將大數據贊頌為“第三次浪潮的華彩樂章”。

“大數據”并不等同于“大規模數據”,那么何謂“大數據”呢?迄今并沒有公認的定義,由于大數據是相對概念,因此,目前的定義都是對大數據的定性描述,并未明確定量指標。維基(Wiki)百科從處理方法角度給出的大數據定義,即大數據是指利用常用軟件工具捕獲管理和處理數據所耗時間超過可容忍時間限制的數據集。麥肯錫公司認為將數據規模超出傳統數據庫管理軟件的獲取存儲管理,以及分析能力的數據集稱為大數據;高德納咨詢公司(Gartner)則將大數據歸納為需要新處理模式才能增強決策力、洞察發現力和流程優化能力的海量高增長率和多樣化的信息資產;徐宗本院士在第462次香山科學會議上的報告中,將大數據定義為不能夠集中存儲并且難以在可接受時間內分析處理,其中個體或部分數據呈現低價值性而數據整體呈現高價值的海量復雜數據集。雖說這些關于大數據定義的定義方式角度及側重點不同,但是所傳遞的信息基本一致,即大數據歸根結底是一種數據集,其特性是通過與傳統的數據管理及處理技術對比來凸顯,并且在不同需求下,其要求的時間處理范圍具有差異性,最重要的一點是大數據的價值并非來自數據本身,而是來自由大數據所反映的“大決策”“大知識”“大問題”等。

從宏觀世界角度來看,大數據則是融合物理世界、信息空間和人類社會三元世界的紐帶,因為物理世界通過互聯網、物聯網等技術有了在信息空間中的大數據反映,而人類社會則借助人機界面、腦機界面、移動互聯等手段在信息空間中產生自己的大數據映像。從信息產業角度來講,大數據還是新一代信息技術產業的強勁推動力。所謂新一代信息技術產業,本質上是構建在第三代平臺上的信息產業,主要是指云計算、大數據、物聯網、移動互聯網(社交網絡)等。

二、大數據產生的原因

“大數據”并不是一個憑空出現的概念,其出現對應了數據產生方式的變革,生產力決定生產關系的道理對于技術領域仍然是有效的,正是由于技術發展到了一定的階段才導致海量數據被源源不斷地生產出來,并使當前的技術面臨重大挑戰。歸納起來大數據出現的原因有以下幾點。

(1)數據生產方式變得自動化

數據的生產方式經歷了從結繩計數到現在的完全自動化,人類的數據生產能力已不可同日而語。物聯網技術、智能城市、工業控制技術的廣泛應用使數據的生產完全實現了自動化,自動數據生產必然會產生大量的數據。甚至當前人們所使用的絕大多數數字設備都可以被認為是一個自動化的數據生產設備:我們的手機會不斷與數據中心進行聯系,通話記錄、位置記錄、費用記錄都會被服務器記錄下來;我們用計算機訪問網頁時訪問歷史、訪問習慣也會被服務器記錄并分析;我們生活的城市、小區遍布的傳感器、攝像頭會不斷產生數據并保證我們的安全;天上的衛星、地面的雷達、空中的飛機也都在不斷地自動產生著數據。

(2)數據生產融入每個人的日常生活

在計算機出現的早期,數據的生產往往只是由專業的人員來完成的,能夠有機會使用計算機的人員通常都是因為工作的需要,物理學家、數學家是最早一批使用計算機的人員。隨著計算機技術的高速發展,計算機得到迅速普及,特別是手機和移動互聯網的出現使數據的生產和每個人的日常生活結合起來,每個人都成為數據的生產者:當你發出一條微博時,你在生產數據;當你拍出一張照片時,你在生產數據;當你使用手中的市民卡和銀行卡時,你在生產數據;當你在QQ上聊天時,你在生產數據;當你在用微信發朋友圈或聊天時,你在生產數據;當你在玩游戲時,你在生產數據。數據的生產已完全融入人們的生活:在地鐵上,你在生產數據;在工作單位,你在生產數據;在家里,你也在生產數據。個人數據的生產呈現出隨時、隨地、移動化的趨勢,我們的生活已經是數字化的生活,如圖1-1所示。

圖1-1 數據生產融入人們的生活

(3)圖像和音視頻數據所占比例越來越大

人類在過去幾千年主要靠文字記錄信息,而隨著技術的發展,人類越來越多地采用視頻、圖像和音頻這類占用空間更大、更形象的手段來記錄和傳播信息。從前聊天我們用文字,現在用微信和視頻,人們越來越習慣利用多媒體方式進行交流,城市中的攝像頭每天都會產生大量視頻數據,而且由于技術的進步,圖像和視頻的分辨率變得越來越高,數據變得越來越大。

(4)網絡技術的發展為數據的生產提供了極大的方便

前面說到的幾個大數據產生原因中還缺乏一個重要的引子:網絡。網絡技術的高速發展是大數據出現的重要催化劑:沒有網絡的發展就沒有移動互聯網,我們就不能隨時隨地實現數據生產;沒有網絡的發展就不可能實現大數據視頻數據的傳輸和存儲;沒有網絡的發展就不會有現在大量數據的自動化生產和傳輸。網絡的發展催生了云計算等網絡化應用的出現,使數據的生產觸角延伸到網絡的各個終端,使任何終端所產生的數據能快速有效地被傳輸并存儲。很難想象在一個網絡條件很差的環境下能出現大數據,所以,可以這么認為:大數據的出現依賴于集成電路技術和網絡技術的發展,集成電路為大數據的生產和處理提供了計算能力的基礎,網絡技術為大數據的傳輸提供了可能。

(5)云計算概念的出現進一步促進了大數據的發展

云計算這一概念是在2008年左右進入我國的,而最早可以追溯到1960年人工智能之父麥卡錫所預言的“今后計算機將會作為公共設施提供給公眾”。2012年3月在國務院政府工作報告中云計算被作為附錄給出了一個政府官方的解釋,表達了政府對云計算產業的重視,在政府工作報告中云計算的定義是這樣的:“云計算:是基于互聯網的服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。是傳統計算機和網絡技術發展融合的產物,它意味著計算能力也可作為一種商品通過互聯網進行流通。”云計算的出現使計算和服務都可以通過網絡向用戶交付,而用戶的數據也可以方便地利用網絡傳遞,云計算這一模式網絡的作用被進一步凸顯出來,數據的生產、處理和傳輸可以利用網絡快速地進行,改變傳統的數據生產模式,這一變化大大加快了數據的產生速度,對大數據的出現起到了至關重要的作用。

三、大數據特性

在大數據的定義中,已經包含了大數據的特性,即數據量大、處理速度要求快、價值密度低等,目前對于大數據的特性認可度較高的是3V特性:數據的規模性(Volume)、高速性(Velocity)及數據結構多樣性(Variety),而在此基礎上已經有不同的公司及研究機構對其進行了擴展,大數據特性描述的演化如表1-1所示。

表1-1 大數據特性描述的演化情況

由表1-1可以看出,隨著時間的演化,業界對于大數據的認識也更深入、全面。除以上對大數據特性的通用性描述之外,不同應用領域的大數據的具體特性也存在差異性。如互聯網領域需要實時處理和分析用戶購買行為,以便及時制定推送方案,返回推薦結果來迎合和激發用戶的消費行為,精度及可靠性要求較高;醫療領域需要根據用戶病例及影像等信息判斷病人的病情,由于其與人們的健康息息相關,所以,其精度及可靠性要求非常高。表1-2列舉了不同領域大數據的具體特點及應用案例。

表1-2 不同領域大數據的具體特點及應用案例

由表1-2可以看出,不同應用領域的數據規模、用戶數目及精度要求等均存在較大的差異,例如,互聯網領域與人的正常活動息息相關,其數據量達PB級別,用戶數目非常大,而且以用戶實時性請求為主。與此不同,在科研領域中,其用戶數目相對較少,產生的數據量級別在TB級。因此,對大數據后續的分析及處理必須因地制宜,才能實現大數據價值的最大化。

四、數據的計量

大數據出現后人們對數據的計量單位也逐步變化,常用的KB、MB和GB已不能有效地描述大數據。在大數據研究和應用時我們經常會接觸到數據存儲的計量單位。下面對數據存儲的計量單位進行介紹。

計算機學科中一般采用0、1這樣的二進制數來表示數據信息,信息的最小單位是bit(比特),一個0或1就是一個比特,而8bit就是一字節(Byte),如10010111就是一Byte。習慣上人們用大寫的B表示Byte。信息的計量一般以210為一個進制,如1024Byte=1KB(KiloByte,千字節),更多常用的數據單位換算關系如表1-3所示。

表1-3 數據存儲單位之間的換算關系

目前市面上主流的硬盤容量大都為TB級,典型的大數據一般都會用到PB、EB和ZB這3種單位。

主站蜘蛛池模板: 瑞金市| 博野县| 石渠县| 枣阳市| 阳新县| 汝州市| 盐山县| 上虞市| 社会| 株洲市| 星座| 孟津县| 哈密市| 黑龙江省| 西林县| 务川| 唐河县| 宁陕县| 古田县| 察隅县| 邢台市| 运城市| 南康市| 高安市| 东乡县| 天长市| 郸城县| 淅川县| 东阳市| 石台县| 双城市| 高安市| 营口市| 咸丰县| 田阳县| 福清市| 广宗县| 抚宁县| 丹巴县| 溧水县| 四平市|