大數據的三個屬性
高德納(Gartner)咨詢公司分析師道格拉斯·萊尼(Douglas Laney)對大數據進行了更多維度的描述,近年來引起了廣泛關注。他用三個詞來描述大數據的屬性:
●數據量,數據的數量;
●數據類,數據類型和來源的范圍;
●數據速,數據輸入輸出的速度。
自從他定義了這些屬性之后,一系列其他的屬性也被引入,但它們只是增加了本應簡單而簡明的定義的復雜性。因此我將專注于理解萊尼最初定義的三個屬性。
數據量
數據的量,指的是產生的數據的量。當今世界上90%的數據都是在近幾年產生的。各個組織都充斥著數據,很容易積累成萬億字節的數據,這些數據無法放入標準的機器或傳統的數據庫中,也無法像十幾年前那樣被分析。今天,由于各種因素的綜合作用,包括數據存儲成本的下降、容量的不斷增加(根據克拉底定律,全球數據的量每兩年翻一番)、新的應用和技術,以及人類一般行為的變化,越來越多的數據正在被捕獲。我們幾乎所有的日常活動和彼此之間的一般互動都是通過某種處理器進行的。
在此基礎上延伸,隨著物聯網的發展——日常事物具備的網絡能力,使它們能夠發送和接收數據。無處不在的設備,如安全攝像頭、手持掃描儀、平板電腦、移動電話、無線傳感器和許多其他設備正在捕捉大量的數據。隨著捕獲和存儲數據的負擔為技術所減輕,我們將繼續看到傳輸和存儲的數據量的爆炸式增長。這種不斷增長的數據量包括不斷增長的各種數據。
數據類
對我來說,我們現在可以獲取的各種數據是大數據最令人興奮的方面之一。它以非結構化文本文檔、圖像、音頻和視頻的形式出現——這意味著我們現在可以獲得很多以前無法獲得的東西。捕捉范圍的擴大從根本上改變了行業,顛覆了傳統商業,甚至挽救了生命。
以普普通通的尿布為例。它的功能一直是讓嬰兒在不弄臟他們的外套或污染外部環境的情況下小便。關于嬰兒尿液的頻率、顏色和氣味的數據(或事實、信息和證據)已經在醫療環境中被應用,但很難在家中實時捕捉。隨著當今傳感器技術的進步,這些數據可以被收集,從而通過分析尿液實時診斷嬰兒的疾病,告知他們的父母嬰兒的水合水平和腎臟健康等情況。
通常,像這樣的數據屬于“機器生成的數據”的范疇:工業設備的數據,例如,最新一代飛機在一次跨大西洋的飛行中產生的幾萬億字節的數據,或來自你的智能手機或心率監測器的傳感器上面的實時數據,更不用說從數以百萬計的閉路電視攝像頭和網絡日志跟蹤用戶的網上行為的數據。
而且,我們將越來越多地利用這些數據。我們使用設備來監視我們的一舉一動——身體鍛煉、開車,甚至吃飯和睡覺。我們跟蹤這些數據,并比以往任何時候都更容易地分享它們。我們也在分享我們的感受和生活中的關鍵時刻。
我們捕捉和共享各種各樣的數據十分頻繁,結果是我們為大數據的第三大屬性——數據的速度做出了貢獻。
數據速
最后的屬性也就是數據的速度。這包括臉書用戶每天上傳的超過9億張的照片,或者海量的推文、狀態變化、上傳視頻、即時消息,甚至是在任何給定時期內發生的信用卡交易數量。
在任何時刻,全世界數百萬人都在生成數量驚人的數據。我發現,IBM(美國國際商用機器公司)在2013年做出了最好的估計。他們聲稱,每一天,我們創造超過2.5艾字節(exabytes)的數據——19位數的天文數字!這還只是幾年前的統計數字。這應該會讓你對數據創建的速率有一個很好的了解。
我們所做的很多事情,以及我們與他人的許多互動,都是通過某種形式的技術、數字過程或社交媒體上的交流來產生數據的。數據以驚人的速度產生,數量驚人。
盡管在之前提到的研究中,許多專家將大數據描述為一種捕捉、處理和分析數據的方法,但我依舊認為,大數據是必不可少的原材料,是一種在“收集、處理和分析”的過程中使用的原材料。
為了處理這些原材料,我們需要新的技術對其消化、存儲、加工、歸檔,并在某個時候重新檢索它們。