- Spark SQL入門與實踐指南
- 紀涵
- 861字
- 2019-12-06 16:38:19
第二部分 基礎篇
本部分由第3~6章組成,第3章是本書中篇幅最長的一章,同時也是真正開始學習Spark SQL必要的先修課,其中詳盡地介紹了Spark框架對數據的核心抽象——RDD(彈性分布式數據集)的方方面面。先介紹與RDD相關的基本概念,例如轉化操作、行動操作、惰性求值、緩存,講解的過程伴隨著豐富的示例,旨在提高讀者對RDD的理解與加強讀者的RDD編程基礎。在講明白RDD中基礎內容的同時,又深入地剖析了疑點、難點,例如RDD Lineage(RDD依賴關系圖)、向Spark傳遞函數、對閉包的理解等。在之前對基本類型RDD的學習基礎上,又引入了對特殊類RDD——鍵值對RDD的大致介紹,在鍵值對RDD介紹中對combineByKey操作的講解,深入地從代碼實現的角度洞悉了Spark分布式計算的實質,旨在幫助對RDD有著濃厚興趣的讀者做進一步的拓展。最后,站在RDD設計者的角度重新審視了RDD緩存、持久化、checkpoint機制,從而詮釋了RDD為什么能夠很好地適應大數據分析業務的特點,有天然強大的容錯性、易恢復性和高效性。
第4章對Spark高級模塊——Spark SQL,也就是本書的主題,進行了簡明扼要的概述,并講述了相應的Spark SQL編程基礎。先是通過與我們前一章所學的Spark對數據的核心抽象——RDD的對比,引出了Spark SQL中核心的數據抽象——DataFrame,講解了兩者的異同,點明了Spark SQL是針對結構化數據處理的高級模塊的原因在于其內置豐富結構信息的數據抽象。后一部分通過豐富的示例講解了如何利用Spark SQL模塊來編程的主要步驟,例如,從結構化數據源中創建DataFrame、DataFrame基本操作以及執行SQL查詢等。
第5、6章屬于Spark SQL編程的進階內容,也是我們將Spark SQL應用于生產、科研計算環境下,真正開始分析多類數據源、實現各種復雜業務需求必須要掌握的知識。在第5章里,我們以包含簡單且典型的學生信息表的JSON文件作為數據源,深入對DataFrame豐富強大的API進行研究,以操作講解加示例的形式包攬了DataFrame中每一個常用的行動、轉化操作,進而幫助讀者輕松高效地組合使用DataFrame所提供的API來實現業務需求。在第6章里,介紹了Spark SQL可處理的各種數據源,包括Hive表、JSON和Parquet文件等,從廣度上使讀者了解Spark SQL在大數據領域對典型結構化數據源的皆可處理性,從而使讀者真正在工作中掌握一門結構化數據的分析利器。
- 大數據導論:思維、技術與應用
- 零起步輕松學單片機技術(第2版)
- Oracle SOA Governance 11g Implementation
- 基于LPC3250的嵌入式Linux系統開發
- 極簡AI入門:一本書讀懂人工智能思維與應用
- 物聯網與云計算
- CorelDRAW X4中文版平面設計50例
- Apache Superset Quick Start Guide
- 樂高機器人—槍械武器庫
- 西門子變頻器技術入門及實踐
- Microsoft System Center Confi guration Manager
- HTML5 Canvas Cookbook
- 嵌入式GUI開發設計
- Hands-On Dashboard Development with QlikView
- 無人駕駛感知智能