- 基于Hadoop與Spark的大數(shù)據(jù)開發(fā)實戰(zhàn)
- 肖睿 丁科 吳剛山
- 1336字
- 2019-09-10 13:26:11
任務(wù)1 初識大數(shù)據(jù)
關(guān)鍵步驟如下。
了解大數(shù)據(jù)是什么。
了解大數(shù)據(jù)的特征。
了解大數(shù)據(jù)帶給企業(yè)哪些方面的挑戰(zhàn)。
1.1.1 大數(shù)據(jù)基本概念
1.大數(shù)據(jù)概述
相信大家經(jīng)常會在各種場合聽到“大數(shù)據(jù)”這個詞,被譽為數(shù)據(jù)倉庫之父的Bill Inmon早在20世紀90年代就將大數(shù)據(jù)掛在嘴邊了。那么到底什么是大數(shù)據(jù)呢?這是我們在本章要了解的。
我們現(xiàn)在生活的時代是一個數(shù)據(jù)時代,近年來隨著互聯(lián)網(wǎng)的高速發(fā)展,每分每秒都在產(chǎn)生數(shù)據(jù),那么產(chǎn)生的這些數(shù)據(jù)如何進行存儲和相應(yīng)的分析處理呢?各大公司紛紛研發(fā)和采用一批新技術(shù)來應(yīng)對日益龐大的數(shù)據(jù)處理需求,主要包括分布式文件系統(tǒng)、分布式計算框架等,這些都是我們需要學(xué)習(xí)和掌握的。
《互聯(lián)網(wǎng)周刊》對大數(shù)據(jù)的定義為:“大數(shù)據(jù)”的概念遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),或者所謂的“4個V”之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,來獲得有巨大價值的產(chǎn)品和服務(wù),或深刻的洞見,最終形成變革之力。
2.大數(shù)據(jù)特征
(1)數(shù)據(jù)量大(Volume)
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和普及,每時每刻都會產(chǎn)生大量的數(shù)據(jù)。在我們的日常生活中,比如說在電商網(wǎng)站購物、在直播平臺看直播、在線閱讀新聞等,都會產(chǎn)生很多的日志,匯在一起每分每秒產(chǎn)生的數(shù)據(jù)量將是非常巨大的。
(2)類型繁多(Variety)
大數(shù)據(jù)中最常見的類型是日志,除了日志之外常見的還有音頻、視頻、圖片等。由于不同類型的數(shù)據(jù)沒有明顯的模式,呈現(xiàn)出多樣性的特點,這對于數(shù)據(jù)的處理要求也會更高。
(3)價值密度低(Value)
現(xiàn)階段每時每刻產(chǎn)生的數(shù)據(jù)量已經(jīng)很大了,如何從大量的日志中提取出我們需要的、對我們有價值的信息才是最重要的。數(shù)據(jù)量越來越大,里面必然會存在著大量與我們所需不相干的信息,如何更迅速地完成數(shù)據(jù)的價值提煉,是大數(shù)據(jù)時代有待解決的問題。
(4)處理速度快(Velocity)
傳統(tǒng)的離線處理的時效性不高,換句話說時延是非常高的。隨著時代的發(fā)展,對時效性的要求越來越高,需要實時對產(chǎn)生的數(shù)據(jù)進行分析處理,而不是采用原來的批處理方式。
1.1.2 大數(shù)據(jù)帶來的挑戰(zhàn)
1.對現(xiàn)有數(shù)據(jù)庫的挑戰(zhàn)
隨著互聯(lián)網(wǎng)時代的到來,現(xiàn)在產(chǎn)生的數(shù)據(jù)如果想存儲在傳統(tǒng)數(shù)據(jù)庫里是不太現(xiàn)實的,即便傳統(tǒng)的數(shù)據(jù)庫有集群的概念,仍然不能處理TB量級的數(shù)據(jù)。而且現(xiàn)階段產(chǎn)生的數(shù)據(jù)類型很多,有些類型的數(shù)據(jù)是沒辦法使用結(jié)構(gòu)化數(shù)據(jù)查詢語言(SQL)來處理的。
2.實時性的技術(shù)挑戰(zhàn)
我們知道數(shù)據(jù)產(chǎn)生的價值會隨著時間的流逝而大大降低,所以當(dāng)數(shù)據(jù)產(chǎn)生后我們要盡可能快地進行處理。最典型的就是電商網(wǎng)站的推薦系統(tǒng),早些年的推薦系統(tǒng)都是基于批處理來進行的,比如每隔半天或者一天進行計算然后再進行推薦,這樣就會有很大的延時,對于訂單的轉(zhuǎn)換而言雖然有效果但不是很好。如果能做到實時推薦,那么肯定能大大提高公司的營業(yè)收入。
傳統(tǒng)的離線批處理對處理時間的要求并不高。而實時處理的要求是區(qū)別大數(shù)據(jù)應(yīng)用和傳統(tǒng)數(shù)據(jù)庫技術(shù)或者離線技術(shù)的關(guān)鍵差別之一。
3.對數(shù)據(jù)中心、運維團隊的挑戰(zhàn)
如今每天產(chǎn)生的數(shù)據(jù)量正呈爆炸式增長,那么如此多的數(shù)據(jù)該怎樣進行高效的收集、存儲、計算都是數(shù)據(jù)中心要面臨的一個非常棘手的問題。而處理快速增長的數(shù)據(jù)量所需要的機器也日益增多,那么對于運維團隊來說壓力也會增加。
- Ansible Configuration Management
- 21天學(xué)通PHP
- 反饋系統(tǒng):多學(xué)科視角(原書第2版)
- Apache Hive Essentials
- 現(xiàn)代機械運動控制技術(shù)
- PostgreSQL 10 Administration Cookbook
- 工業(yè)機器人安裝與調(diào)試
- TensorFlow Reinforcement Learning Quick Start Guide
- Linux嵌入式系統(tǒng)開發(fā)
- 學(xué)練一本通:51單片機應(yīng)用技術(shù)
- 智能鼠原理與制作(進階篇)
- 單片機技術(shù)項目化原理與實訓(xùn)
- 計算機硬件技術(shù)基礎(chǔ)(第2版)
- 網(wǎng)管員世界2009超值精華本
- Learning iOS 8 for Enterprise