- 大數據分析:數據倉庫項目實戰
- 尚硅谷IT教育編著
- 741字
- 2021-01-05 18:09:51
前言
大數據發展至今,早已不是一個新興詞語,大數據的應用已經無處不在。在大數據時代,我們面臨的不僅是海量的數據,更重要的是海量數據所帶來的數據的采集、存儲、處理等方方面面的問題。為了更快速、更全面地展示大數據的實踐應用,本書以一個數據倉庫項目為切入點,帶領讀者一步步揭開大數據的面紗。
數據倉庫項目是學習大數據的重要基石。本書以數據倉庫的搭建為主線,從搭建之初的框架選型、數據服務的整體策劃到數據的流向,數據的采集、存儲和計算,循序漸進,一步步地展開,進行細致剖析。在對數據傳輸過程的講解中,穿插了數據倉庫的相關理論知識及大數據關鍵框架組件的講解,務求讓讀者對大數據有更深刻的理解,更加全面地了解大數據生態體系。
本書共9章,包括大數據與數據倉庫概論、項目需求描述、項目部署的環境準備、用戶行為數據采集模塊、業務數據采集模塊、數據倉庫搭建模塊、數據可視化模塊、即席查詢模塊、元數據管理模塊。
本項目采用主流的數據倉庫建模方式(確定業務過程、聲明粒度、確定維度、確實事實),覆蓋當前主流框架——采集,Flume/Kafka/Sqoop;存儲,MySQL/Hadoop/HBase;計算,Hive/Tez;查詢,Presto/Druid/Kylin;可視化,Superset;任務調度,Azkaban;元數據管理,Atlas;腳本,Shell。
整套項目包含業務指標近100個、Shell腳本40多個、用戶行為原始表11張,業務原始表24張、數據倉庫總表近100張……
閱讀本書要求讀者具有一定的編程基礎,至少掌握一門編程語言(如Java)及SQL查詢語言。讀者若不具備此項條件,則可以關注“尚硅谷教育”公眾號(微信號:atguigu),在聊天窗口發送關鍵字“大數據”,即可獲取尚硅谷大數據學科全套視頻教程及學習路線圖;發送關鍵字“數倉項目”,則可獲取本書相關學習資料,包括2760分鐘配套視頻及全部的源碼、腳本、課件、軟件包等。
感謝電子工業出版社的李冰編輯在本書編寫過程中給予的指導與支持。
尚硅谷IT教育
- 劍破冰山:Oracle開發藝術
- Effective Amazon Machine Learning
- 云計算服務保障體系
- 大數據:規劃、實施、運維
- 達夢數據庫性能優化
- Microsoft Power BI數據可視化與數據分析
- 區域云計算和大數據產業發展:浙江樣板
- Internet of Things with Python
- 企業大數據處理:Spark、Druid、Flume與Kafka應用實踐
- Delphi High Performance
- Learn Selenium
- SQL Server 2012數據庫技術及應用(第4版)
- Nagios Core Administrators Cookbook
- Discovering Business Intelligence Using MicroStrategy 9
- SQL應用開發參考手冊