官术网_书友最值得收藏!

前言

大數據時代的來臨,給各行各業帶來了深刻的變革。大數據像能源、原材料一樣,已經成為提升國家和企業競爭力的關鍵要素,被稱為“未來的新石油”。正如電力技術的應用引發了生產模式的變革一樣,基于互聯網技術而發展起來的大數據技術的應用,將會為人們的生產和生活帶來顛覆性的影響。

目前,大數據技術正處于快速發展之中,不斷有新的技術涌現,Hadoop和Spark等技術成為其中的佼佼者。在Spark流行之前,Hadoop儼然已成為大數據技術的事實標準,在企業中得到了廣泛的應用,但其本身還存在諸多缺陷,最主要的是MapReduce計算模型延遲過高,無法勝任實時、快速計算的需求,因而只適用于離線批處理的應用場景。Spark在設計上充分吸收借鑒了MapReduce的精髓并加以改進,同時,采用了先進的DAG執行引擎,以支持循環數據流與內存計算,因此,在性能上比MapReduce有了大幅度的提升,從而迅速獲得了學術界和業界的廣泛關注。作為大數據計算平臺的后起之秀,Spark在2014年打破了Hadoop保持的基準排序紀錄,此后逐漸發展成為大數據領域最熱門的大數據計算平臺之一。

隨著大數據在企業應用的不斷深化,企業對大數據人才的需求日益增長。為了有效地滿足不斷增長的大數據人才需求,國內高校從2016年開始設立“數據科學與大數據技術專業”,著力培養數據科學與工程領域的復合型高技術人才。課程體系的建設和課程教材的創作,是高校大數據專業建設的核心環節。

廈門大學數據庫實驗室在大數據教學領域辛勤耕耘、開拓創新,成為國內高校大數據教學資源的有力貢獻者。實驗室在積極踐行O2O大數據教學理念的同時,提出了“以平臺化思維構建全國高校大數據課程公共服務體系”的全新服務理念,成為推進國內高校大數據教學不斷向前發展的一支重要力量,在全國高校之中形成了廣泛的影響。2015年7月,實驗室編寫出版了國內高校第一本系統性介紹大數據知識的專業教材——《大數據技術原理與應用》,受到了廣泛的好評,目前已經成為國內眾多高校的入門級大數據課程的開課教材。同時,實驗室建設了國內高校首個大數據課程公共服務平臺(網址:http://dblab.xmu.edu.cn/post/bigdata-teachingplatform/),為全國高校教師和學生提供大數據教學資源一站式“免費”在線服務,包括課程教材、講義PPT、課程習題、實驗指南、學習指南、備課指南、授課視頻和技術資料等,自2013年5月建設以來,定位明確,進展順利,目前平臺每年訪問量超過100萬次,成為全國高校大數據教學的知名品牌。

《大數據技術原理與應用》定位為入門級大數據教材,以“構建知識體系、闡明基本原理、開展初級實踐、了解相關應用”為原則,旨在為讀者搭建起通向大數據知識空間的橋梁和紐帶,為讀者在大數據領域深耕細作奠定基礎、指明方向。高校在開設入門級課程以后,可以根據自己的實際情況,開設進階級的大數據課程,繼續深化對大數據技術的學習,而Spark是目前比較理想的大數據進階課程學習內容。因此,廈門大學數據庫實驗室組織具有豐富經驗的一線大數據教師精心編寫了本教材。

為了確保教材質量,在出版紙質圖書之前,實驗室已經于2016年10月通過實驗室官網免費共享了簡化版的Spark在線教程和相關教學資源,同時,該在線教程也已經用于廈門大學計算機科學系研究生的大數據課程教學,并成為全國高校大數據課程教師培訓交流班的授課內容。實驗室根據讀者對在線Spark教程的大量反饋意見以及在教學實踐中發現的問題,對Spark在線教程進行了多次修正和完善,這些前期準備工作,都為紙質圖書的編著出版打下了堅實的基礎。

本書共7章,詳細介紹了Spark的環境搭建和基礎編程方法。第1章介紹大數據關鍵技術,幫助讀者對大數據技術形成總體性認識以及了解Spark在其中所扮演的角色;第2章介紹Spark的設計與運行原理;第3章介紹Spark的環境搭建和使用方法,為開展Spark編程實踐鋪平道路;第4章介紹RDD編程,包括RDD的創建、操作API、持久化、分區以及鍵值對RDD等,這章知識是開展Spark高級編程的基礎;第5章介紹Spark中用于結構化數據處理的組件Spark SQL,包括DataFrame數據模型、創建方法和常用操作等;第6章介紹Spark Streaming,這是一種構建在Spark上的流計算框架,可以滿足對流式數據進行實時計算的需求;第7章介紹Spark的機器學習庫MLlib,包括MLlib的基本原理、算法、模型選擇和超參數調整方法等。

本書面向高校計算機、軟件工程、數據科學與大數據技術等專業的學生,可以作為專業必修課或選修課教材。本書由林子雨、賴永炫和陶繼平執筆,其中,林子雨負責全書規劃、統稿、校對和在線資源創作,并撰寫第1、2、4、5、6章的內容,賴永炫負責撰寫第7章的內容,陶繼平負責撰寫第3章的內容。在撰寫過程中,廈門大學計算機科學系碩士研究生阮榕城、薛倩、魏亮、曾冠華、程璐、林哲等做了大量的輔助性工作,在此,向這些同學的辛勤工作表示衷心的感謝。同時,感謝夏小云老師在書稿校對過程中的辛勤付出。

本書配套的官方網站是http://dblab.xmu.edu.cn/post/spark/,免費提供全部配套資源的在線瀏覽和下載,并接受錯誤反饋和發布勘誤信息。同時,Spark作為大數據進階課程,在學習過程中會涉及大量相關的大數據基礎知識以及各種大數據軟件的安裝和使用方法,因此,推薦讀者訪問廈門大學數據庫實驗室建設的國內高校首個大數據課程公共服務平臺(http://dblab.xmu.edu.cn/post/bigdata-teaching-platform/),來獲得必要的輔助學習內容。

本書在撰寫過程中,參考了大量的網絡資料和相關書籍,對Spark技術進行了系統梳理,有選擇性地把一些重要知識納入本書。由于筆者能力有限,本書難免存在不足之處,望廣大讀者不吝賜教。

林子雨
廈門大學計算機科學系數據庫實驗室
2018年1月

主站蜘蛛池模板: 崇文区| 都江堰市| 秭归县| 临朐县| 汝南县| 油尖旺区| 河曲县| 绥棱县| 望城县| 米易县| 桐梓县| 台山市| 唐河县| 淮滨县| 玛沁县| 施甸县| 宁国市| 长岭县| 禄劝| 耒阳市| 霍山县| 迭部县| 安岳县| 大渡口区| 土默特左旗| 元江| 新乡县| 潞西市| 开鲁县| 鄂尔多斯市| 梓潼县| 行唐县| 东海县| 申扎县| 喀什市| 呼和浩特市| 武隆县| 鄂尔多斯市| 茌平县| 枝江市| 双柏县|