官术网_书友最值得收藏!

任務(wù)1 初識大數(shù)據(jù)

關(guān)鍵步驟如下。

了解大數(shù)據(jù)是什么。

了解大數(shù)據(jù)的特征。

了解大數(shù)據(jù)帶給企業(yè)哪些方面的挑戰(zhàn)。

1.1.1 大數(shù)據(jù)基本概念

1.大數(shù)據(jù)概述

相信大家經(jīng)常會在各種場合聽到“大數(shù)據(jù)”這個詞,被譽為數(shù)據(jù)倉庫之父的Bill Inmon早在20世紀90年代就將大數(shù)據(jù)掛在嘴邊了。那么到底什么是大數(shù)據(jù)呢?這是我們在本章要了解的。

我們現(xiàn)在生活的時代是一個數(shù)據(jù)時代,近年來隨著互聯(lián)網(wǎng)的高速發(fā)展,每分每秒都在產(chǎn)生數(shù)據(jù),那么產(chǎn)生的這些數(shù)據(jù)如何進行存儲和相應(yīng)的分析處理呢?各大公司紛紛研發(fā)和采用一批新技術(shù)來應(yīng)對日益龐大的數(shù)據(jù)處理需求,主要包括分布式文件系統(tǒng)、分布式計算框架等,這些都是我們需要學(xué)習(xí)和掌握的。

《互聯(lián)網(wǎng)周刊》對大數(shù)據(jù)的定義為:“大數(shù)據(jù)”的概念遠不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),或者所謂的“4個V”之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做的事情,這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實現(xiàn)的。換句話說,大數(shù)據(jù)讓我們以一種前所未有的方式,通過對海量數(shù)據(jù)進行分析,來獲得有巨大價值的產(chǎn)品和服務(wù),或深刻的洞見,最終形成變革之力。

2.大數(shù)據(jù)特征

(1)數(shù)據(jù)量大(Volume)

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展和普及,每時每刻都會產(chǎn)生大量的數(shù)據(jù)。在我們的日常生活中,比如說在電商網(wǎng)站購物、在直播平臺看直播、在線閱讀新聞等,都會產(chǎn)生很多的日志,匯在一起每分每秒產(chǎn)生的數(shù)據(jù)量將是非常巨大的。

(2)類型繁多(Variety)

大數(shù)據(jù)中最常見的類型是日志,除了日志之外常見的還有音頻、視頻、圖片等。由于不同類型的數(shù)據(jù)沒有明顯的模式,呈現(xiàn)出多樣性的特點,這對于數(shù)據(jù)的處理要求也會更高。

(3)價值密度低(Value)

現(xiàn)階段每時每刻產(chǎn)生的數(shù)據(jù)量已經(jīng)很大了,如何從大量的日志中提取出我們需要的、對我們有價值的信息才是最重要的。數(shù)據(jù)量越來越大,里面必然會存在著大量與我們所需不相干的信息,如何更迅速地完成數(shù)據(jù)的價值提煉,是大數(shù)據(jù)時代有待解決的問題。

(4)處理速度快(Velocity)

傳統(tǒng)的離線處理的時效性不高,換句話說時延是非常高的。隨著時代的發(fā)展,對時效性的要求越來越高,需要實時對產(chǎn)生的數(shù)據(jù)進行分析處理,而不是采用原來的批處理方式。

1.1.2 大數(shù)據(jù)帶來的挑戰(zhàn)

1.對現(xiàn)有數(shù)據(jù)庫的挑戰(zhàn)

隨著互聯(lián)網(wǎng)時代的到來,現(xiàn)在產(chǎn)生的數(shù)據(jù)如果想存儲在傳統(tǒng)數(shù)據(jù)庫里是不太現(xiàn)實的,即便傳統(tǒng)的數(shù)據(jù)庫有集群的概念,仍然不能處理TB量級的數(shù)據(jù)。而且現(xiàn)階段產(chǎn)生的數(shù)據(jù)類型很多,有些類型的數(shù)據(jù)是沒辦法使用結(jié)構(gòu)化數(shù)據(jù)查詢語言(SQL)來處理的。

2.實時性的技術(shù)挑戰(zhàn)

我們知道數(shù)據(jù)產(chǎn)生的價值會隨著時間的流逝而大大降低,所以當(dāng)數(shù)據(jù)產(chǎn)生后我們要盡可能快地進行處理。最典型的就是電商網(wǎng)站的推薦系統(tǒng),早些年的推薦系統(tǒng)都是基于批處理來進行的,比如每隔半天或者一天進行計算然后再進行推薦,這樣就會有很大的延時,對于訂單的轉(zhuǎn)換而言雖然有效果但不是很好。如果能做到實時推薦,那么肯定能大大提高公司的營業(yè)收入。

傳統(tǒng)的離線批處理對處理時間的要求并不高。而實時處理的要求是區(qū)別大數(shù)據(jù)應(yīng)用和傳統(tǒng)數(shù)據(jù)庫技術(shù)或者離線技術(shù)的關(guān)鍵差別之一。

3.對數(shù)據(jù)中心、運維團隊的挑戰(zhàn)

如今每天產(chǎn)生的數(shù)據(jù)量正呈爆炸式增長,那么如此多的數(shù)據(jù)該怎樣進行高效的收集、存儲、計算都是數(shù)據(jù)中心要面臨的一個非常棘手的問題。而處理快速增長的數(shù)據(jù)量所需要的機器也日益增多,那么對于運維團隊來說壓力也會增加。

主站蜘蛛池模板: 司法| 华坪县| 察雅县| 永康市| 特克斯县| 台中县| 廊坊市| 高雄县| 鄂州市| 桂林市| 吉安县| 旬邑县| 德安县| 北票市| 阿克陶县| 扬州市| 娱乐| 沐川县| 英超| 肥城市| 司法| 集贤县| 梁河县| 遂平县| 南涧| 桐乡市| 孝昌县| 丁青县| 巍山| 扎鲁特旗| 清镇市| 伊吾县| 三江| 太谷县| 南平市| 永春县| 黔西县| 民县| 嘉荫县| 文安县| 钦州市|