官术网_书友最值得收藏!

  • 精通Spark數據科學
  • (美)安德魯·摩根 (英)安托萬·阿門德 大衛·喬治 馬修·哈利特
  • 317字
  • 2021-01-15 16:45:34

第1章 數據科學生態系統

作為一名數據科學家,你應該已經能非常熟練地處理文件和大量數據。但是除了對單一類型的數據進行簡單分析外,你還需要一種組織和編目數據的方法,以便有效地管理數據。這種能力實際上是成為一名偉大的數據科學家的基礎。因為隨著數據量的增加和復雜性的提高,成功的泛化和失敗的過擬合之間的區別就在于是否有一個一致且強大的方法。

本章介紹處理大規模數據的方法和生態系統,側重于介紹數據科學的工具和技術。本章主要介紹運行環境和如何正確配置環境,同時也介紹一些與整體數據架構相關的非功能性注意事項。雖然這一階段還沒涉及具體的數據科學研究,但它為本書的成功提供了堅實的平臺。

在這一章里,我們將探討以下主題。

  • 數據管理職責。
  • 數據架構。
  • 配套工具。
主站蜘蛛池模板: 镇雄县| 新源县| 福建省| 谢通门县| 通化县| 元氏县| 甘泉县| 巴南区| 仁寿县| 广水市| 靖江市| 财经| 永顺县| 河池市| 阿尔山市| 昔阳县| 都安| 宜丰县| 侯马市| 永宁县| 顺平县| 郁南县| 呼图壁县| 宜良县| 汽车| 余姚市| 德阳市| 武强县| 建阳市| 遵义市| 海兴县| 长治县| 凤阳县| 沙洋县| 辰溪县| 曲麻莱县| 肥西县| 若尔盖县| 大安市| 樟树市| 安新县|