前言

本書給出了實時大數據計算領域的許多技巧和經驗，介紹了Flink、Spark和Storm等流處理框架技術。本書還歸納了一些實用的技術，以幫助讀者像使用Hadoop批處理一樣的方式實時處理無界流數據。讀者可以從如何搭建開發(fā)環(huán)境開始，逐步實現流處理，然后學會如何利用Rabbit MQ、Kafka和NiFi以及Storm、Spark、Flink和Beam等組件協(xié)同應用來解決實際問題。通過學習本書的內容，讀者可以對NRT的基本原理及應用有透徹的理解，并能掌握如何將這些基礎知識應用到任何適用的實際問題當中。

本書采用“菜譜”（Cookbook）式的寫作風格，輔以豐富的實際案例，包括注釋清楚的代碼示例、相應的圖表等。

本書內容概述

第一部分導言——熟悉實時分析本部分主要帶領讀者熟悉實時分析領域，了解它的基礎組件和基于此構建的系統(tǒng)，包括如下幾章：

●第1章實時分析簡介

●第2章實時應用的基本組件

第二部分搭建基礎設施本部分主要講解如何由基礎組件搭建基礎設施，包括如下幾章：

●第3章了解和跟蹤數據流

●第4章安裝和配置Strom

●第5章配置Apache Spark和Flink

第三部分 Storm實時計算本部分主要關注Strom的計算能力和它的各種特性，包括如下幾章：

●第6章集成Storm與數據源

●第7章從Storm到Sink

●第8章 Storm Trident

第四部分使用Spark實現實時計算本部分主要關注Spark的計算能力和它的相關特性，包括如下幾章：

●第9章運用Spark引擎

●第10章運用Spark操作

●第11章 Spark Streaming

第五部分使用Flink實現實時分析本部分主要關注Flink的計算能力和它的相關特性，包括如下一章：

●第12章運用Apache Flink

第六部分綜合應用本部分包括如下一章：

●第13章用例研究

閱讀基礎

本書旨在引導讀者逐步掌握實時流處理技術。在閱讀本書之前，讀者應具備基本的Java和Scala編程基礎，還應熟悉Maven、Java和Eclipse的安裝和配置流程，以便運行示例程序。

讀者對象

如果讀者是Java開發(fā)人員，想要安裝相關軟件并設計一個端到端的實時數據流的實用解決方案，那么本書非常適合作為參考書。掌握實時處理的基本知識是很有幫助的，了解Maven、Shell和Eclipse的基本原理也對讀者大有裨益。

本書約定

在本書中，讀者會發(fā)現許多文本樣式，可以據此區(qū)分不同種類的信息。下面給出了這些樣式的一些例子，并對它們的含義進行了解釋。文本中的代碼、數據庫表名、文件夾名、文件擴展名、路徑名、虛擬URL、用戶輸入和Twitter句柄表示為：“下載kafka_2.11-0.10.1.1.tgz文件后，提取文件。”

代碼塊設置如下：

cp kafka_2.11-0.10.1.1.tgz/home/ubuntu/demo/kafka
cd/home/ubuntu/demo/kafka
tar-xvf kafka_2.11-0.10.1.1.tgz

新術語和重要單詞以粗體顯示。讀者在截屏圖中看到的單詞（例如，在菜單或對話框中）在文本中表示為：“為了下載新模塊，我們將轉到Files | Settings | Project Name | Project Interpreter。”

警告或重要注釋的形式如下。

__________________________________

警告內容。

__________________________________

提示和竅門的形式如下。

__________________________________

提示內容。

__________________________________

官术网_书友最值得收藏!

實時數據處理和分析指南

前言

本書內容概述

閱讀基礎

讀者對象

本書約定