Hadoop + Spark生態系統操作與實戰指南
本書用于Hadoop+Spark快速上手,全面解析Hadoop和Spark生態系統,通過原理解說和實例操作每一個組件,讓讀者能夠輕松跨入大數據分析與開發的大門。全書共12章,大致分為3個部分,第1部分(第1~7章)講解Hadoop的原生態組件,包括Hadoop、ZooKeeper、HBase、Hive環境搭建與安裝,以及介紹MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本環境下實戰操作。第2部分(第8~11章)講解Spark的原生態組件,包括SparkCore、SparkSQL、SparkStreaming、DataFrame,以及介紹Scala、SparkAPI、SparkSQL、SparkStreaming、DataFrame原理和CDH版本環境下實戰操作,其中Flume和Kafka屬于Apache頂級開源項目也放在本篇講解。第3部分(第12章)講解兩個大數據項目,包絡網頁日志離線項目和實時項目,在CDH版本環境下通過這兩個項目將Hadoop和Spark原生態組件進行整合,一步步帶領讀者學習和實戰操作。本書適合想要快速掌握大數據技術的初學者,也適合作為高等院校和培訓機構相關專業師生的教學參考書和實驗用書。
·7.3萬字