官术网_书友最值得收藏!

1.1 大數據的定義

簡單來說,大數據有助于處理“3V”問題——體量、速度和多樣性。最近,又增加了“2V”——真實性與價值,這就構成了一個五維的范式。

體量:數據的數量。環顧四周,每時每刻都有大量的數據產生,比如電子郵件、推特(Twitter)、臉書(Facebook)或者其他社交媒體中的信息,又如視頻、圖片、短信、電話記錄以及各種設備和傳感器產生的數據。數據的計量單位從TB級到ZB級,甚至到YB級這樣趨近天文數字的量級。在Facebook上,每天大約產生100億條消息,點贊50億次,上傳4億張照片。統計結果令人驚訝,2008年前產生的所有數據量與今天一天生成的數據量相當,相信在不遠的將來,這個時間很快就會縮短為一小時。僅從數據體量這一維度來看,傳統數據庫已經無法在合理的時間范圍內存儲和處理大規模數據,于是大數據棧脫穎而出,它以低成本、分布式且可靠有效的方式處理這些驚人的海量數據。

速度:數據產生的速度。如今的時代,各種各樣的數據都在激增。正是因為數據產生的速度足夠快,才積累了如此海量的數據。社交媒體上的事件通常在數秒內就開始流傳,接著就開始病毒式地傳播。股票交易員在短短數毫秒內就能從社交媒體的熱門事件中分析出一些有用信息,并由此觸發大量的買入/賣出操作。大數據賦予人們以驚人的速度分析數據的能力:在零售業柜臺的終端設備上,短短數秒內信用卡刷卡、欺詐交易的辨別、支付、記賬和確認回執等一系列操作就都完成了。

多樣性:該維度呈現這樣一個事實——大數據很可能是非結構化的。在傳統數據庫時代甚至更早以前,大部分人習慣于處理類似于表格這樣非常結構化的數據。如今超過80%的數據是非結構化的,如照片、短視頻、社交媒體更新、傳感器采集的數據和通話錄音等。大數據技術讓你以結構化方式存儲和處理非結構化數據,實際上這在一定程度上消除了多樣性。

真實性:該維度關乎數據的有效性和準確性。應該如何判斷數據是否準確和有效呢?海量的數據記錄并非都是經過修正的、準確的且可作為參考的。真實性的內涵在于數據的可信度和質量是怎么樣的。數據真實性的例子包括Facebook和Twitter上的帖子使用了不標準的縮寫且有拼寫錯誤。大數據已將對數據進行分析的功能用于數據表中。決定數據量究竟有多大的主要因素就是真實性。

價值:顧名思義,就是數據實際擁有的價值。毫無疑問,這是大數據中最重要的維度。從超大型數據集中獲取一些有價值的信息或許是人們處理它們的唯一動機,因為所有這些都關乎成本和效益。

當前,幾乎所有企業都十分關注大數據技術。眾多行業都深信它的實用價值,但實現如上目標的關鍵主要是面向應用程序,而不是面向基礎設施。下一節會詳細介紹這部分內容。

主站蜘蛛池模板: 星子县| 新巴尔虎右旗| 沂水县| 宕昌县| 临汾市| 五华县| 朝阳县| 衡水市| 红桥区| 靖远县| 呼和浩特市| 安平县| 五家渠市| 清水县| 景德镇市| 台中县| 乌海市| 黔江区| 布尔津县| 汉寿县| 沅江市| 喀什市| 海口市| 凌海市| 海口市| 施秉县| 娄烦县| 鸡东县| 珲春市| 昭平县| 海淀区| 西丰县| 行唐县| 武陟县| 巴南区| 蛟河市| 嘉禾县| 建宁县| 肥城市| 龙泉市| 团风县|