官术网_书友最值得收藏!

第2章 數據獲取

一名數據科學家最重要的任務之一就是將數據加載到數據科學平臺上。不同于那些不可控的、臨時性的過程,本章講解的是在Spark中,通用的數據采集管道可以被構造成可重復使用的組件,跨越多路輸入數據流。我們演示一種配置,教大家如何在各種不同的運行條件下傳遞重要的饋送管理信息。

讀者將學習如何構建內容登記、使用它來追蹤所有加載到系統中的輸入、傳遞采集管道的指標,這樣這些流就能自動可靠地運行,無須人工干預。

在這一章里,我們將探討以下主題。

  • 數據管道。
  • 通用采集框架。
  • 介紹全球事件、語言和語調數據庫——GDELT數據集。
  • 實時監控新數據。
  • Kafka接收流數據。
  • 登記新內容,為追蹤構建存儲。
  • 在Kibana中將內容指標可視化,以監控采集進程和數據健康度。
主站蜘蛛池模板: 无棣县| 宁国市| 湘乡市| 太仆寺旗| 景宁| 青田县| 资溪县| 广德县| 罗定市| 江山市| 富平县| 河南省| 贞丰县| 城市| 通海县| 依安县| 广元市| 平利县| 旺苍县| 益阳市| 上高县| 清远市| 台中县| 西盟| 和静县| 德格县| 赤城县| 都兰县| 会东县| 渭源县| 蓝田县| 泰来县| 乌兰察布市| 大荔县| 高台县| 广昌县| 白朗县| 常德市| 延边| 剑川县| 伊川县|