官术网_书友最值得收藏!

本書的主要內容

第1章:數據科學生態系統。這一章介紹處理大規模數據的方法和大數據生態系統。它側重于講解在后面章節中使用的數據科學工具和技術,并介紹環境以及如何正確地配置環境。此外,它還介紹與整體數據架構相關的一些非功能性注意事項。

第2章:數據獲取。一名數據科學家最重要的任務之一是準確地將數據加載到數據科學平臺上。我們不需要不受控制、臨時組織的流程,這一章介紹如何在Spark中構建通用的數據采集管道,這些管道作為許多輸入數據饋送流中的可重用組件。

第3章: 輸入格式與模式。這一章演示如何將數據從原始格式加載到不同的模式,從而能在相同的數據上執行各種不同類型的分析??紤]到這一點,我們將研究數據模式易于理解的領域,涵蓋傳統數據庫建模的關鍵領域,并解釋一些基礎原則仍適用于Spark的原因。此外,在訓練Spark技能的同時,我們將分析GDELT數據集,并展示如何以高效和可擴展的方式存儲這個大型數據集。

第4章:探索性數據分析。一個常見的誤解是EDA僅能用于發現數據集的統計屬性,和提供關于如何運用數據集的見解。實際上,這種看法非常片面。完整的EDA將改變這種看法,并包含對“在生產中使用此數據流的可行性”的詳細評估。同時它還要求我們了解如何為數據集指定工業級的數據加載方法,這種方法可能在“熄燈模式”下運行多年。本章使用“數據剖析”技術提供一種進行數據質量評估的快速方法,這種方法能加快整個進程。

第5章:利用Spark進行地理分析。地理處理是Spark強有力的使用案例之一,這一章將演示如何入門地理處理。這一章的目標是說明數據科學家如何使用Spark處理地理數據,并在非常大的數據集上生成強大的、基于地圖的視圖。我們演示如何通過集成GeoMesa的Spark輕松處理時空數據集,這有助于將Spark轉變為復雜的地理處理引擎。這一章還涉及利用這些時空數據將機器學習應用于預測油價。

第6章:采集基于鏈接的外部數據。這一章旨在解釋一種通用的模式,通過URL或API(如GDELT和Twitter)找到外部內容來增強本地數據。我們提供一個使用GDELT新聞索引服務作為新聞來源的教程,演示如何建立一個全網規模的新聞掃描器,用來從互聯網上采集感興趣的全球突發新聞。我們進一步闡述如何使用專業的Web采集組件克服因規模的擴大而引發的挑戰。

第7章:構建社區。這一章旨在解決數據科學和大數據中的常見用例。隨著越來越多的人互動、交流、交換信息,或者僅是在不同的主題上分享共同興趣,整個世界就可以用一個圖來表示。數據科學家必須能夠在圖結構上發現社區,找到主要參與者,并檢測可能的異常。

第8章:構建推薦系統。如果要選擇一個算法向公眾展示數據科學,推薦系統肯定會被選中。如今,推薦系統隨處可見,其流行的原因是它們良好的通用性、實用性和廣泛適用性。在本章中,我們將演示如何使用原始音頻信號推薦音樂內容。

第9章:新聞詞典和實時標記系統。雖然分層數據倉庫將數據存儲在文件夾里的文件中,但典型的基于Hadoop的系統仍依賴扁平架構來存儲數據。如果沒有適當的數據管理或對全部數據內容的清晰理解,那“數據湖”就將不可避免地變成“沼澤”。在沼澤中,像GDELT這樣的有趣數據集只不過是一個包含大量非結構化文本文件的文件夾。在這一章中,我們將描述一種以非監督方式和近實時方式標記輸入GDELT數據的創新方法。

第10章:故事除重和變遷。在這一章中,我們對GDELT數據庫進行重復數據消除并建立索引將其轉換為故事,然后隨著時間的推移跟蹤故事并了解它們之間的聯系、它們可能如何變異,以及它們在不久的將來是否會引發后續事件。本章的核心是Simhash的概念,它用于檢測近似重復以及利用隨機索引建立向量以降低維度。

第11章:情感分析中的異常檢測。2016年較為引人注目的事件可能是美國總統選舉及其最終結果——唐納德·特朗普當選總統。這場選舉將長期被人們銘記,尤其是它史無前例地使用了社交媒體,并且喚起了用戶的激情,大多數人都使用社交媒體來表達自己的感受。在這一章中,我們不會試圖預測結果本身,而是將目標放在使用實時Twitter饋送來檢測在美國大選期間的異常推文。

第12章:趨勢演算。早在數據科學家流行研究“什么是趨勢”的概念之前,數據科學還沒有很好地解決一個老問題:趨勢。目前,對趨勢的分析主要由人們的“注視”時間序列圖表提供解釋。但人們的眼睛到底是在看什么呢?本章介紹在Apache Spark中實現的一種新的數值化研究趨勢的算法:趨勢演算。

第13章:數據保護。在這本書中,我們涉及數據科學的許多領域,經常誤入那些傳統上與數據科學家的核心工作無關的知識領域。在這一章中,我們將訪問一個經常被忽視的領域——保護數據。更具體地說,本章將介紹如何在數據生命周期的所有階段保護你的數據和分析結果。本章的核心是在Spark中構建商業級加密解碼器。

第14章:可擴展算法。在這一章中,我們將說明為什么有時能在小規模數據下工作的基礎算法會在大數據工作中失敗。我們將說明在編寫運行于海量數據集上的Spark作業時要如何避免出現問題,并介紹算法的結構以及如何編寫可擴展到超過PB級數據的自定義數據科學分析。這一章還介紹了并行化策略、緩存、洗牌策略、垃圾回收優化和概率模型等功能,并說明如何使用這些功能幫助你充分利用Spark。

主站蜘蛛池模板: 黄平县| 信阳市| 麻城市| 浠水县| 宝丰县| 石屏县| 南澳县| 洛扎县| 阳曲县| 乐清市| 长治市| 卢龙县| 宜春市| 开平市| 新邵县| 峡江县| 陆良县| 米泉市| 正阳县| 马山县| 加查县| 犍为县| 华坪县| 贺州市| 东至县| 石嘴山市| 修水县| 阿拉善左旗| 高邑县| 汶川县| 沙湾县| 缙云县| 台山市| 塔城市| 巴南区| 梁平县| 镶黄旗| 虹口区| 同仁县| 启东市| 华池县|