舉報

會員
精通Spark數據科學
最新章節:
14.6 小結
ApacheSpark是專為大規模數據處理而設計的快速通用的計算引擎。這是一本專門介紹Spark的圖書,旨在教會讀者利用Spark構建實用的數據科學解決方案。本書內容包括14章,由淺入深地介紹了數據科學生態系統、數據獲取、輸入格式與模式、探索性數據分析、利用Spark進行地理分析、采集基于鏈接的外部數據、構建社區、構建推薦系統、新聞詞典和實時標記系統、故事除重和變遷、情感分析中的異常檢測、趨勢演算、數據保護和可擴展算法。本書適合數據科學家以及對數據科學、機器學習感興趣的讀者閱讀,需要讀者具備數據科學相關的基礎知識,并通過閱讀本書進一步提升Spark運用能力,從而創建出高效且實用的數據科學解決方案。
目錄(111章)
倒序
- 封面
- 版權信息
- 內容提要
- 譯者序
- 譯者簡介
- 原書序言
- 作者簡介
- 審稿人簡介
- 前 言
- 本書的主要內容
- 讀者須知
- 本書的目標讀者
- 本書的排版約定
- 資源與支持
- 配套資源
- 提交勘誤
- 與我們聯系
- 關于異步社區和異步圖書
- 第1章 數據科學生態系統
- 1.1 大數據生態系統簡介
- 1.2 數據架構
- 1.3 數據處理技術
- 1.4 配套工具
- 1.5 小結
- 第2章 數據獲取
- 2.1 數據管道
- 2.2 內容登記
- 2.3 質量保證
- 2.4 小結
- 第3章 輸入格式與模式
- 3.1 結構化的生活是美好的生活
- 3.2 GDELT維度建模
- 3.3 加載數據
- 3.4 Avro
- 3.5 Apache Parquet
- 3.6 小結
- 第4章 探索性數據分析
- 4.1 問題、原則與規劃
- 4.2 準備工作
- 4.3 探索GDELT
- 4.4 小結
- 第5章 利用Spark進行地理分析
- 5.1 GDELT和石油
- 5.2 制訂行動計劃
- 5.3 GeoMesa
- 5.4 計量油價
- 5.5 小結
- 第6章 采集基于鏈接的外部數據
- 6.1 構建一個大規模的新聞掃描器
- 6.2 命名實體識別
- 6.3 GIS查詢
- 6.4 名字除重
- 6.5 新聞索引儀表板
- 6.6 小結
- 第7章 構建社區
- 7.1 構建一個人物圖譜
- 7.2 使用Accumulo數據庫
- 7.3 社區發現算法
- 7.4 GDELT數據集
- 7.5 小結
- 第8章 構建推薦系統
- 8.1 不同的方法
- 8.2 信息不完整的數據
- 8.3 構建歌曲分析器
- 8.4 構建一個推薦系統
- 8.5 擴大“蛋糕廠”規模
- 8.6 小結
- 第9章 新聞詞典和實時標記系統
- 9.1 土耳其機器人
- 9.2 設計Spark Streaming應用
- 9.3 消費數據流
- 9.4 處理Twitter數據
- 9.5 獲取HTML內容
- 9.6 使用Elasticsearch作為緩存層
- 9.7 分類數據
- 9.8 Twitter土耳其機器人
- 9.9 小結
- 第10章 故事除重和變遷
- 10.1 檢測近似重復
- 10.2 構建故事
- 10.3 故事變遷
- 10.4 小結
- 第11章 情感分析中的異常檢測
- 11.1 在Twitter上追蹤美國大選
- 11.2 情感分析
- 11.3 使用Timely作為時間序列數據庫
- 11.4 Twitter與戈德溫(Godwin)點
- 11.5 進入檢測諷刺的一小步
- 11.6 小結
- 第12章 趨勢演算
- 12.1 研究趨勢
- 12.2 趨勢演算算法
- 12.3 實際應用
- 12.4 小結
- 第13章 數據保護
- 13.1 數據安全性
- 13.2 認證和授權
- 13.3 訪問
- 13.4 加密
- 13.5 數據處置
- 13.6 Kerberos認證
- 13.7 安全生態
- 13.8 安全責任
- 13.9 小結
- 第14章 可擴展算法
- 14.1 基本原則
- 14.2 Spark架構
- 14.3 挑戰
- 14.4 規劃你的路線
- 14.5 設計模式和技術
- 14.6 小結 更新時間:2021-01-15 16:45:59
推薦閱讀
- 自動控制工程設計入門
- Getting Started with Clickteam Fusion
- Ansible Quick Start Guide
- TIBCO Spotfire:A Comprehensive Primer(Second Edition)
- Windows XP中文版應用基礎
- Hands-On Machine Learning with TensorFlow.js
- VB語言程序設計
- Multimedia Programming with Pure Data
- 完全掌握AutoCAD 2008中文版:綜合篇
- Pig Design Patterns
- Chef:Powerful Infrastructure Automation
- Pentaho Analytics for MongoDB
- INSTANT Munin Plugin Starter
- MATLAB-Simulink系統仿真超級學習手冊
- 青少年VEX IQ機器人實訓課程(初級)
- Eclipse RCP應用系統開發方法與實戰
- 電機與電力拖動
- 傳感器原理及應用(第二版)
- 仿蛛機器人的設計與制作
- 編程大講壇:Visual Basic核心開發技術從入門到精通
- Learning PostgreSQL 10(Second Edition)
- Moodle 2.5 Multimedia
- VRay 1.5R2完全自學攻略
- Implementing Cisco UCS Solutions(Second Edition)
- Python Reinforcement Learning Projects
- Hands-On Data Science with R
- 排爆機器人的研究與開發
- 人工智能大冒險:青少年的AI啟蒙書
- Flash CS3中文版無敵課堂
- 交互設計的用戶研究踐行之路