官术网_书友最值得收藏!

1.2 大數據的概念

隨著大數據時代的到來,“大數據”已經成為互聯網信息技術行業的流行詞匯。關于“什么是大數據”這個問題,大家比較認可關于大數據的“4V”說法。大數據的4個“V”,或者說是大數據的4個特點,包含4個層面:數據量大(Volume)、數據類型繁多(Variety)、處理速度快(Velocity)和價值密度低(Value)。

1.2.1 數據量大

人類進入信息社會以后,數據以自然方式增長,其產生不以人的意志為轉移。從1986年開始到2010年的20多年時間里,全球數據的數量增長了100倍,今后的數據量增長速度將更快,我們正生活在一個“數據爆炸”的時代。今天,世界上只有25%的設備是聯網的,大約80%的上網設備是計算機和手機,而在不遠的將來,將有更多的用戶成為網民,汽車、電視、家用電器、生產機器等各種設備也將接入互聯網。隨著Web 2.0和移動互聯網的快速發展,人們已經可以隨時隨地、隨心所欲發布包括博客、微博、微信等在內的各種信息。以后,隨著物聯網的推廣和普及,各種傳感器和攝像頭將遍布我們工作和生活的各個角落,這些設備每時每刻都在自動產生大量數據。

綜上所述,人類社會正經歷第二次“數據爆炸”(如果把印刷在紙上的文字和圖形也看作數據的話,那么人類歷史上第一次“數據爆炸”發生在造紙術和印刷術發明的時期)。各種數據產生速度之快,產生數量之大,已經遠遠超出人類可以控制的范圍,“數據爆炸”成為大數據時代的鮮明特征。根據著名咨詢機構IDC(Internet Data Center)做出的估測,人類社會產生的數據一直都在以每年 50%的速度增長,也就是說,每兩年就增加一倍,這被稱為“大數據摩爾定律”。這意味著,人類在最近兩年產生的數據量相當于之前產生的全部數據量之和。預計到2020年,全球將總共擁有35ZB(見表1-3)的數據量,與2010年相比,數據量將增長到近30倍。

表1-3 數據存儲單位之間的換算關系

1.2.2 數據類型繁多

大數據的數據來源眾多,科學研究、企業應用和Web應用等都在源源不斷地生成新的數據。生物大數據、交通大數據、醫療大數據、電信大數據、電力大數據、金融大數據等都呈現出“井噴式”增長,所涉及的數量十分巨大,已經從TB級別躍升到PB級別。

大數據的數據類型豐富,包括結構化數據和非結構化數據,其中,前者占10%左右,主要是指存儲在關系數據庫中的數據;后者占90%左右,種類繁多,主要包括郵件、音頻、視頻、微信、微博、位置信息、鏈接信息、手機呼叫信息、網絡日志等。

如此類型繁多的異構數據,對數據處理和分析技術提出了新的挑戰,也帶來了新的機遇。傳統數據主要存儲在關系數據庫中,但是,在類似Web 2.0等應用領域中,越來越多的數據開始被存儲在非關系型數據庫(Not Only SQL,NoSQL)中,這就必然要求在集成的過程中進行數據轉換,而這種轉換的過程是非常復雜和難以管理的。傳統的聯機分析處理(On-Line Analytical Processing,OLAP)和商務智能工具大都面向結構化數據,而在大數據時代,用戶友好的、支持非結構化數據分析的商業軟件也將迎來廣闊的市場空間。

1.2.3 處理速度快

大數據時代的數據產生速度非常迅速。在Web 2.0應用領域,在1min內,新浪可以產生2萬條微博,Twitter可以產生10萬條推文,蘋果可以下載4.7萬次應用,淘寶可以賣出6萬件商品,人人網可以發生30萬次訪問,百度可以產生90萬次搜索查詢,Facebook可以產生600萬次瀏覽量。大名鼎鼎的大型強子對撞機(LHC),大約每秒產生6億次的碰撞,每秒生成約700 MB的數據,有成千上萬臺計算機分析這些碰撞。

大數據時代的很多應用都需要基于快速生成的數據給出實時分析結果,用于指導生產和生活實踐。因此,數據處理和分析的速度通常要達到秒級響應,這一點和傳統的數據挖掘技術有著本質的不同,后者通常不要求給出實時分析結果。

為了實現快速分析海量數據的目的,新興的大數據分析技術通常采用集群處理和獨特的內部設計。以谷歌公司的Dremel為例,它是一種可擴展的、交互式的實時查詢系統,用于只讀嵌套數據的分析,通過結合多級樹狀執行過程和列式數據結構,它能做到幾秒內完成對萬億張表的聚合查詢,系統可以擴展到成千上萬的CPU上,滿足谷歌上萬用戶操作PB級數據的需求,并且可以在2~3s內完成PB級別數據的查詢。

1.2.4 價值密度低

大數據雖然看起來很美,但是價值密度卻遠遠低于傳統關系數據庫中已經有的那些數據。在大數據時代,很多有價值的信息都是分散在海量數據中的。以小區監控視頻為例,如果沒有意外事件發生,連續不斷產生的數據都是沒有任何價值的,當發生偷盜等意外情況時,也只有記錄了事件過程的那一小段視頻是有價值的。但是,為了能夠獲得發生偷盜等意外情況時的那一段寶貴的視頻,我們不得不投入大量資金購買監控設備、網絡設備、存儲設備,耗費大量的電能和存儲空間,來保存攝像頭連續不斷傳來的監控數據。

如果這個實例還不夠典型的話,那么我們可以想象另一個更大的場景。假設一個電子商務網站希望通過微博數據進行有針對性的營銷,為了實現這個目的,就必須構建一個能存儲和分析新浪微博數據的大數據平臺,使之能夠根據用戶微博內容進行有針對性的商品需求趨勢預測。愿景很美好,但是現實代價很大,可能需要耗費幾百萬元構建整個大數據團隊和平臺,而最終帶來的企業銷售利潤增加額可能會比投入低許多,從這點來說,大數據的價值密度是較低的。

主站蜘蛛池模板: 陆川县| 兰考县| 安新县| 根河市| 高平市| 邹城市| 彰化市| 汶川县| 蒙山县| 巴林左旗| 弋阳县| 垦利县| 金华市| 肇源县| 麻栗坡县| 南投市| 德江县| 中西区| 平罗县| 宜宾市| 潜山县| 清远市| 蕲春县| 晋城| 奉化市| 兴文县| 中西区| 广德县| 临沧市| 攀枝花市| 富阳市| 蓝山县| 渭源县| 普陀区| 大竹县| 萨嘎县| 高青县| 肇庆市| 吉隆县| 纳雍县| 布拖县|