- 精通Spark數據科學
- (美)安德魯·摩根 (英)安托萬·阿門德 大衛·喬治 馬修·哈利特
- 317字
- 2021-01-15 16:45:34
第1章 數據科學生態系統
作為一名數據科學家,你應該已經能非常熟練地處理文件和大量數據。但是除了對單一類型的數據進行簡單分析外,你還需要一種組織和編目數據的方法,以便有效地管理數據。這種能力實際上是成為一名偉大的數據科學家的基礎。因為隨著數據量的增加和復雜性的提高,成功的泛化和失敗的過擬合之間的區別就在于是否有一個一致且強大的方法。
本章介紹處理大規模數據的方法和生態系統,側重于介紹數據科學的工具和技術。本章主要介紹運行環境和如何正確配置環境,同時也介紹一些與整體數據架構相關的非功能性注意事項。雖然這一階段還沒涉及具體的數據科學研究,但它為本書的成功提供了堅實的平臺。
在這一章里,我們將探討以下主題。
- 數據管理職責。
- 數據架構。
- 配套工具。