Hadoop構建數(shù)據(jù)倉庫實踐
本書講述在流行的大數(shù)據(jù)分布式存儲和計算平臺Hadoop上設計實現(xiàn)數(shù)據(jù)倉庫,將傳統(tǒng)數(shù)據(jù)倉庫建模與SQL開發(fā)的簡單性與大數(shù)據(jù)技術相結(jié)合,快速、高效地建立可擴展的數(shù)據(jù)倉庫及其應用系統(tǒng)。本書內(nèi)容包括數(shù)據(jù)倉庫、Hadoop及其生態(tài)圈的相關概念,使用Sqoop從關系數(shù)據(jù)庫全量或增量抽取數(shù)據(jù),使用HIVE進行數(shù)據(jù)轉(zhuǎn)換和裝載處理,使用Oozie調(diào)度作業(yè)周期性執(zhí)行,使用Impala進行快速聯(lián)機數(shù)據(jù)分析,使用Hue將數(shù)據(jù)可視化,以及數(shù)據(jù)倉庫中的漸變維(SCD)、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。本書適合數(shù)據(jù)庫管理員、大數(shù)據(jù)技術人員、Hadoop技術人員、數(shù)據(jù)倉庫技術人員,也適合高等院校和培訓機構相關專業(yè)的師生教學參考。
·22.2萬字