大數據處理框架Apache Spark設計與實現
近年來,以ApacheSpark為代表的大數據處理框架在學術界和工業界得到了廣泛的使用。本書以ApacheSpark框架為核心,總結了大數據處理框架的基礎知識、核心理論、典型的Spark應用,以及相關的性能和可靠性問題。本書分9章,主要包含四部分內容。第一部分大數據處理框架的基礎知識(第1~2章):介紹大數據處理框架的基本概念、系統架構、編程模型、相關的研究工作,并以一個典型的Spark應用為例概述Spark應用的執行流程。第二部分Spark大數據處理框架的核心理論(第3~4章):介紹Spark框架將應用程序轉化為邏輯處理流程,進而轉化為可并行執行的物理執行計劃的一般過程及方法。第三部分典型的Spark應用(第5章):介紹迭代型的Spark機器學習應用和圖計算應用。第四部分大數據處理框架性能和可靠性保障機制(第6~9章):介紹Spark框架的Shuffle機制、數據緩存機制、錯誤容忍機制、內存管理機制等。
·11.9萬字