企業大數據處理:Spark、Druid、Flume與Kafka應用實踐
本書分三部分展開介紹:第一部分(第1章)主要介紹了企業大數據系統的前期準備工作,包括如何構建企業大數據處理系統的軟件環境和集群環境。第二部分(第2~7章)首先介紹了Spark的基本原理,Spark2.0版本的SparkSQL、StructuredStreaming原理和使用方法,以及Spark的多種優化方式;然后,介紹了Druid的基本原理、集群的搭建過程、數據攝入過程,以及在查詢過程中如何實現Druid查詢API;接著介紹了日志收集系統Flume的基本架構和關鍵組件,以及分層日志收集架構的設計與實踐;最后介紹了分布式消息隊列Kafka的基本架構和集群搭建過程,以及使用Java語言實現客戶端API的詳細過程。第三部分(第8~9章)主要介紹了企業大數據處理的兩個實際應用案例,分別是基于Druid構建多維數據分析平臺和基于JMX指標的監控系統。
·8萬字