企業(yè)大數(shù)據(jù)處理:Spark、Druid、Flume與Kafka應(yīng)用實(shí)踐
本書分三部分展開介紹:第一部分(第1章)主要介紹了企業(yè)大數(shù)據(jù)系統(tǒng)的前期準(zhǔn)備工作,包括如何構(gòu)建企業(yè)大數(shù)據(jù)處理系統(tǒng)的軟件環(huán)境和集群環(huán)境。第二部分(第2~7章)首先介紹了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多種優(yōu)化方式;然后,介紹了Druid的基本原理、集群的搭建過程、數(shù)據(jù)攝入過程,以及在查詢過程中如何實(shí)現(xiàn)Druid查詢API;接著介紹了日志收集系統(tǒng)Flume的基本架構(gòu)和關(guān)鍵組件,以及分層日志收集架構(gòu)的設(shè)計(jì)與實(shí)踐;最后介紹了分布式消息隊(duì)列Kafka的基本架構(gòu)和集群搭建過程,以及使用Java語言實(shí)現(xiàn)客戶端API的詳細(xì)過程。第三部分(第8~9章)主要介紹了企業(yè)大數(shù)據(jù)處理的兩個(gè)實(shí)際應(yīng)用案例,分別是基于Druid構(gòu)建多維數(shù)據(jù)分析平臺和基于JMX指標(biāo)的監(jiān)控系統(tǒng)。
·8萬字