Hadoop + Spark生態(tài)系統(tǒng)操作與實(shí)戰(zhàn)指南
本書用于Hadoop+Spark快速上手,全面解析Hadoop和Spark生態(tài)系統(tǒng),通過原理解說和實(shí)例操作每一個(gè)組件,讓讀者能夠輕松跨入大數(shù)據(jù)分析與開發(fā)的大門。全書共12章,大致分為3個(gè)部分,第1部分(第1~7章)講解Hadoop的原生態(tài)組件,包括Hadoop、ZooKeeper、HBase、Hive環(huán)境搭建與安裝,以及介紹MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本環(huán)境下實(shí)戰(zhàn)操作。第2部分(第8~11章)講解Spark的原生態(tài)組件,包括SparkCore、SparkSQL、SparkStreaming、DataFrame,以及介紹Scala、SparkAPI、SparkSQL、SparkStreaming、DataFrame原理和CDH版本環(huán)境下實(shí)戰(zhàn)操作,其中Flume和Kafka屬于Apache頂級(jí)開源項(xiàng)目也放在本篇講解。第3部分(第12章)講解兩個(gè)大數(shù)據(jù)項(xiàng)目,包絡(luò)網(wǎng)頁日志離線項(xiàng)目和實(shí)時(shí)項(xiàng)目,在CDH版本環(huán)境下通過這兩個(gè)項(xiàng)目將Hadoop和Spark原生態(tài)組件進(jìn)行整合,一步步帶領(lǐng)讀者學(xué)習(xí)和實(shí)戰(zhàn)操作。本書適合想要快速掌握大數(shù)據(jù)技術(shù)的初學(xué)者,也適合作為高等院校和培訓(xùn)機(jī)構(gòu)相關(guān)專業(yè)師生的教學(xué)參考書和實(shí)驗(yàn)用書。
·7.3萬字