大數(shù)據(jù)處理框架Apache Spark設(shè)計與實現(xiàn)
近年來,以ApacheSpark為代表的大數(shù)據(jù)處理框架在學(xué)術(shù)界和工業(yè)界得到了廣泛的使用。本書以ApacheSpark框架為核心,總結(jié)了大數(shù)據(jù)處理框架的基礎(chǔ)知識、核心理論、典型的Spark應(yīng)用,以及相關(guān)的性能和可靠性問題。本書分9章,主要包含四部分內(nèi)容。第一部分大數(shù)據(jù)處理框架的基礎(chǔ)知識(第1~2章):介紹大數(shù)據(jù)處理框架的基本概念、系統(tǒng)架構(gòu)、編程模型、相關(guān)的研究工作,并以一個典型的Spark應(yīng)用為例概述Spark應(yīng)用的執(zhí)行流程。第二部分Spark大數(shù)據(jù)處理框架的核心理論(第3~4章):介紹Spark框架將應(yīng)用程序轉(zhuǎn)化為邏輯處理流程,進而轉(zhuǎn)化為可并行執(zhí)行的物理執(zhí)行計劃的一般過程及方法。第三部分典型的Spark應(yīng)用(第5章):介紹迭代型的Spark機器學(xué)習(xí)應(yīng)用和圖計算應(yīng)用。第四部分大數(shù)據(jù)處理框架性能和可靠性保障機制(第6~9章):介紹Spark框架的Shuffle機制、數(shù)據(jù)緩存機制、錯誤容忍機制、內(nèi)存管理機制等。
·11.9萬字