官术网_书友最值得收藏!

前言

本書以Hadoop和Spark為核心,闡述了基于這兩種通用大數據處理平臺的應用開發技術。

在Hadoop生態圈中,從HDFS初識分布式存儲系統;以Map Reduce詳解分步式計算的步驟;利用HBase分析適合非結構化數據存儲的分布式數據庫;利用Hive分析將SQL查詢轉化為分布式計算的過程;并結合項目案例“音樂排行榜”練習Hadoop核心技能點的運用;同時,介紹了幾種離線處理系統中常用的輔助工具。

在Spark生態圈中,從Scala開始介紹多范式編程;并從Spark Core、Spark SQL、Spark Streaming三個方面來分析對比Hadoop生態圈中的分布式計算、Hive、流式計算的可替換方案和它們各自的優勢。

技能訓練

掌握Hadoop運行環境的部署。

掌握大數據文件在HDFS中的存儲。

掌握Map Reduce編程模型以及Map Reduce應用開發方法。

掌握YARN的運行原理。

掌握HBase數據庫的操作方法。

掌握Hive數據倉庫的操作方法。

掌握常用離線處理輔助系統Sqoop和Azkaban的用法。

掌握Scala基本編程方法。

掌握Spark RDD創建與操作。

掌握Data Frame編程方法。

掌握Spark Streaming對Socket、HDFS數據進行流式處理的方法。

了解Spark Streaming與Flume、Kafka的整合。

設計思路

本書共12章,內容包括Hadoop初體驗、Hadoop分布式文件系統、Hadoop分布式計算框架、Hadoop新特性、Hadoop分布式數據庫、Hadoop綜合實戰——音樂排行榜、數據倉庫Hive、大數據離線處理輔助系統、Spark基礎、Spark Core、Spark SQL和Spark Streaming。具體內容安排如下。

第1章是對Hadoop的總體概述,介紹大數據基本概念、Hadoop生態圈、Hadoop與大數據的關系以及Hadoop安裝部署的詳細步驟。

第2章是對HDFS的介紹,主要包括HDFS的體系結構、Shell操作以及通過Java API實現訪問。

第3章是對Map Reduce分布式計算框架的講解,包括Map Reduce的編程模型、編寫和運行Map Reduce程序。

第4章是對Hadoop新的資源調度框架YARN及Hadoop新特性的講解,以及如何實現Hadoop高可用集群。

第5章是對HBase數據庫的講解,介紹HBase的安裝及其使用方法。

第6章通過案例“音樂排行榜”的實現,對前面各章的技能點做一個階段回顧與總結,介紹如何通過HDFS、Map Reduce與HBase的結合使用完成Hadoop離線批處理應用開發。

第7章是對Hive的講解,介紹如何使用類似于SQL查詢的方式來執行Map Reduce計算。

第8章介紹Sqoop、Azkaban這兩種在開發離線處理系統時常用的輔助工具。

第9章是對Spark的基本介紹,包括Spark的安裝與運行、Spark的開發語言Scala。

第10章是對Spark的核心RDD的詳解,介紹Spark Core的編程模型以及Spark應用程序的開發。

第11章是對Spark SQL的詳解,包括常用的SQL on Hadoop框架、Spark SQL的編程方法以及Spark SQL對多種外部數據源的操作。

第12章是對Spark Streaming的詳解,包括Spark Streaming核心概念、常用的流處理系統,以及使用Spark Streaming進行流處理應用的開發。

章節導讀

技能目標:本章要達成的學習目標,可以作為檢驗學習效果的標準。

本章任務:本章要完成的學習內容及要求,通過任務描述引導讀者思考,進而引導讀者全面了解章節內容。

案例代碼:通過代碼讓讀者掌握如何應用本章講解的技能點。

本章總結:本章內容的概括和總結。

本章練習:針對本章學習內容的補充性練習,用于加強對本章知識的理解和運用。

本書由課工場大數據開發教研團隊編寫,參與編寫的還有丁科、吳剛山、鄢長青、張琪等院校老師。由于編者水平有限,書中不妥或錯誤之處在所難免,殷切希望廣大讀者批評指正!

編者

2017年12月

主站蜘蛛池模板: 夹江县| 阿荣旗| 丰宁| 扎兰屯市| 尚志市| 灌南县| 壶关县| 丹寨县| 洪湖市| 吉木乃县| 聂荣县| 澄迈县| 桐庐县| 香格里拉县| 林芝县| 湛江市| 呼和浩特市| 昭觉县| 平阳县| 仙桃市| 河池市| 迭部县| 大丰市| 祁门县| 任丘市| 海安县| 六安市| 凤山县| 宝鸡市| 大埔区| 玉田县| 甘谷县| 松滋市| 界首市| 石柱| 玉门市| 蒙自县| 新兴县| 全南县| 黔江区| 荆州市|