官术网_书友最值得收藏!

前言

大數據發展至今,早已不是一個新興詞語,大數據的應用已經無處不在。在大數據時代,我們面臨的不僅是海量的數據,更重要的是海量數據所帶來的數據的采集、存儲、處理等方方面面的問題。為了更快速、更全面地展示大數據的實踐應用,本書以一個數據倉庫項目為切入點,帶領讀者一步步揭開大數據的面紗。

數據倉庫項目是學習大數據的重要基石。本書以數據倉庫的搭建為主線,從搭建之初的框架選型、數據服務的整體策劃到數據的流向,數據的采集、存儲和計算,循序漸進,一步步地展開,進行細致剖析。在對數據傳輸過程的講解中,穿插了數據倉庫的相關理論知識及大數據關鍵框架組件的講解,務求讓讀者對大數據有更深刻的理解,更加全面地了解大數據生態體系。

本書共9章,包括大數據與數據倉庫概論、項目需求描述、項目部署的環境準備、用戶行為數據采集模塊、業務數據采集模塊、數據倉庫搭建模塊、數據可視化模塊、即席查詢模塊、元數據管理模塊。

本項目采用主流的數據倉庫建模方式(確定業務過程、聲明粒度、確定維度、確實事實),覆蓋當前主流框架——采集,Flume/Kafka/Sqoop;存儲,MySQL/Hadoop/HBase;計算,Hive/Tez;查詢,Presto/Druid/Kylin;可視化,Superset;任務調度,Azkaban;元數據管理,Atlas;腳本,Shell。

整套項目包含業務指標近100個、Shell腳本40多個、用戶行為原始表11張,業務原始表24張、數據倉庫總表近100張……

閱讀本書要求讀者具有一定的編程基礎,至少掌握一門編程語言(如Java)及SQL查詢語言。讀者若不具備此項條件,則可以關注“尚硅谷教育”公眾號(微信號:atguigu),在聊天窗口發送關鍵字“大數據”,即可獲取尚硅谷大數據學科全套視頻教程及學習路線圖;發送關鍵字“數倉項目”,則可獲取本書相關學習資料,包括2760分鐘配套視頻及全部的源碼、腳本、課件、軟件包等。

感謝電子工業出版社的李冰編輯在本書編寫過程中給予的指導與支持。

尚硅谷IT教育

主站蜘蛛池模板: 莱州市| 农安县| 沛县| 威海市| 讷河市| 锡林郭勒盟| 普兰店市| 怀来县| 金川县| 浦江县| 临武县| 游戏| 鹤岗市| 兖州市| 墨玉县| 临沭县| 潼关县| 沂水县| 秦皇岛市| 仙游县| 新泰市| 西华县| 新兴县| 左云县| 左云县| 万全县| 涞源县| 竹山县| 岢岚县| 唐海县| 连云港市| 鞍山市| 吴江市| 晋城| 石景山区| 沈阳市| 扎鲁特旗| 翼城县| 遂溪县| 沅陵县| 罗田县|