Hadoop構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)實(shí)踐
本書(shū)講述在流行的大數(shù)據(jù)分布式存儲(chǔ)和計(jì)算平臺(tái)Hadoop上設(shè)計(jì)實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù),將傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)建模與SQL開(kāi)發(fā)的簡(jiǎn)單性與大數(shù)據(jù)技術(shù)相結(jié)合,快速、高效地建立可擴(kuò)展的數(shù)據(jù)倉(cāng)庫(kù)及其應(yīng)用系統(tǒng)。本書(shū)內(nèi)容包括數(shù)據(jù)倉(cāng)庫(kù)、Hadoop及其生態(tài)圈的相關(guān)概念,使用Sqoop從關(guān)系數(shù)據(jù)庫(kù)全量或增量抽取數(shù)據(jù),使用HIVE進(jìn)行數(shù)據(jù)轉(zhuǎn)換和裝載處理,使用Oozie調(diào)度作業(yè)周期性執(zhí)行,使用Impala進(jìn)行快速聯(lián)機(jī)數(shù)據(jù)分析,使用Hue將數(shù)據(jù)可視化,以及數(shù)據(jù)倉(cāng)庫(kù)中的漸變維(SCD)、代理鍵、角色扮演維度、層次維度、退化維度、無(wú)事實(shí)的事實(shí)表、遲到的事實(shí)、累積的度量等常見(jiàn)問(wèn)題在Hadoop上的處理等。本書(shū)適合數(shù)據(jù)庫(kù)管理員、大數(shù)據(jù)技術(shù)人員、Hadoop技術(shù)人員、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)人員,也適合高等院校和培訓(xùn)機(jī)構(gòu)相關(guān)專業(yè)的師生教學(xué)參考。
·22.2萬(wàn)字