官术网_书友最值得收藏!

前言

近年來,大數據浪潮洶涌來襲,與互聯網一樣,這不僅是信息技術領域的革命,更是在全球范圍加速企業創新、引領社會變革的利器。現代管理學之父德魯克說過,預測未來最好的方法,就是去創造未來。而“大數據戰略”正是當下領航全球的先機。大數據指一般的軟件工具難以捕捉、管理和分析的大容量數據。大數據之“大”,并不僅在于“容量之大”,更在于其通過對海量數據的交換、整合和分析,發現新的知識、創造新的價值,帶來“大知識”“大科技”“大利潤”和“大發展”。

數據科學與大數據技術專業,簡稱數科或大數據專業,旨在培養具有大數據思維、運用大數據思維研究及分析的高層次大數據人才,掌握計算機理論和大數據處理技術,從數據管理、系統開發、海量數據分析與挖掘三個層面系統地培養學生掌握大數據應用中的各種典型問題的解決辦法,提升學生解決實際問題的能力。

基本內容

本書共分為12章,各章主要內容如下。

第1章主要對大數據產生的背景、大數據的結構與特征、大數據相關概念、大數據可視化、大數據處理相關工具與發展前景進行了介紹。通過第1章的學習,讀者能夠初步掌握大數據的基本知識,熟悉大數據處理與分析的操作環境及可視化方法,為后面的進一步學習打下堅實的基礎。

第2章主要介紹了分布式計算平臺Hadoop及其基礎知識、Hadoop發展史、Hadoop體系結構等,讓讀者對Hadoop有一個簡單的認識,了解如何在Hadoop上開發和運行處理海量數據的應用。

第3章首先介紹分布式文件系統的基本概念、結構和設計需求,然后介紹HDFS,詳細闡述它的重要概念、體系結構、存儲原理和讀寫過程,最后介紹了一些HDFS編程實踐方面的知識。

第4章著重介紹了MapReduce“分而治之,迭代匯總”的處理海量數據的并行編程模型和計算框架,讓讀者了解MapReduce的數據類型與格式、序列化、數據分片、MapReduce的架構與接口類,通過單詞計數程序將上述知識點串聯并闡述MapReduce的思想。

第5章詳細地介紹了HBase開源數據庫,HBase的安裝與配置、常用API、HBase架構及實現原理等,使讀者快速對HBase有一個全方面的了解。

第6章著重介紹了NoSQL的基礎,一致性策略、數據分區與放置策略、數據復制與容錯、數據緩存等,結合NoSQL典型應用工具,結合實例簡明扼要地敘述了NoSQL的基本應用。

第7章闡述了Spark生態系統全貌,包含SparkSQL、Spark Streaming、GraphX、MLlib等,了解Spark的功能、特點以及場景應用。通過對Spark的安裝部署,基本操作和運行模式,并通過編程實例來加深了解運用Spark的相關知識。

第8章首先介紹了Storm流計算的基本概念和需求,闡述了流計算的處理流程、應用場景、Storm的設計思想和架構設計,最后介紹了Spark Streaming及其應用實例。

第9章介紹了分布式協調系統Zookeeper概念及其主要特征和數據模型、Zookeeper的安裝和配置、Zookeeper API的簡單使用、Zookeeper shell的操作,最后介紹了一個選舉案例讓讀者更深入地了解Zookeeper的作用及應用。

第10章通過銷售數據分析系統的應用案例,介紹了大數據分析應用系統的完整開發過程,涵蓋了數據采集、數據分析、數據轉換和結果顯示的整個流程。

第11章介紹了在Hadoop平臺上進行交互式數據處理的方法,然后介紹了利用Hive基本工具進行實時交互式大數據的處理和分析。

第12章介紹了協同推薦算法的基本概念和幾種典型分類。利用Spark MLlib實現了協同過濾推薦算法及協同交互過程。

本書特點

本書編者長期給本科生和研究生講授數據庫、數據挖掘、物聯網和云計算等與大數據相關的課程,有著豐富的教學實踐和科研經驗。本書內容條理清晰,并按照讀者學習的一般規律由淺入深、循序漸進,并配以大量的圖片說明和實例講解,能夠使讀者快速地了解和掌握大數據原理及應用案例。

讀者對象

● 大數據基礎知識的初學者。

● 具有一定大數據基礎并希望更深入了解、掌握大數據原理與應用的中級讀者。

本書適合作為大中專院校數據科學與大數據專業、計算機類專業的教材,也可作為從事大數據挖掘等工作的科研或者工程技術人員的參考書。

本書由趙國生、王健和宋一兵主編。哈爾濱師范大學趙國生主要負責第1~8章,哈爾濱理工大學王健負責第9、10章,宋一兵負責第11、12章。參加本書編寫工作的還有管殿柱、王獻紅、李文秋,學生曲曉峰、張慧、蔣欣洋、陳炫慧、賀敬、張志敏等為本書做了大量輔助性工作,在此一并感謝。

本書得到了以下項目的支持:國家自然科學基金項目“可生存系統的自主認知模式研究”(61202458)、國家自然科學基金項目“基于認知循環的任務關鍵系統可生存性自主增長模型與方法”(61403109)、高等學校博士點基金項目(20112303120007)、哈爾濱市科技創新人才研究專項(2016RAQXJ036)和黑龍江省自然科學基金(F2017021)。

雖然編者在編寫本書的過程中力求敘述準確、完善,但由于水平有限,書中欠妥之處在所難免,希望讀者將對本書的意見和建議告訴我們。作者聯系郵箱:syb33@163.com。

編者

主站蜘蛛池模板: 虹口区| 石柱| 大理市| 蓝山县| 丰顺县| 绥阳县| 大方县| 江都市| 磴口县| 达拉特旗| 江阴市| 阜康市| 丹棱县| 垦利县| 石楼县| 根河市| 潼南县| 巴彦淖尔市| 乌兰浩特市| 措美县| 寻乌县| 大荔县| 尚志市| 滨州市| 舟曲县| 周宁县| 梁平县| 犍为县| 称多县| 赞皇县| 抚顺市| 太康县| 和田县| 胶南市| 遂平县| 新蔡县| 天台县| 芒康县| 岗巴县| 东方市| 清涧县|