- 精通Spark數據科學
- (美)安德魯·摩根 (英)安托萬·阿門德 大衛·喬治 馬修·哈利特
- 305字
- 2021-01-15 16:45:36
第2章 數據獲取
一名數據科學家最重要的任務之一就是將數據加載到數據科學平臺上。不同于那些不可控的、臨時性的過程,本章講解的是在Spark中,通用的數據采集管道可以被構造成可重復使用的組件,跨越多路輸入數據流。我們演示一種配置,教大家如何在各種不同的運行條件下傳遞重要的饋送管理信息。
讀者將學習如何構建內容登記、使用它來追蹤所有加載到系統中的輸入、傳遞采集管道的指標,這樣這些流就能自動可靠地運行,無須人工干預。
在這一章里,我們將探討以下主題。
- 數據管道。
- 通用采集框架。
- 介紹全球事件、語言和語調數據庫——GDELT數據集。
- 實時監控新數據。
- Kafka接收流數據。
- 登記新內容,為追蹤構建存儲。
- 在Kibana中將內容指標可視化,以監控采集進程和數據健康度。