數據采集與預處理技術應用
本書重點介紹了數據采集和數據預處理的相關理論與技術。全書共9章,主要包括數據采集與預處理概述,大數據開發環境的搭建,使用Flume采集系統日志數據,使用Kafka采集系統日志數據,其他常用的系統日志數據采集工具,使用網絡爬蟲采集Web數據,Python數據預處理庫的使用,使用ETL工具Kettle進行數據預處理,以及其他常用的數據預處理工具。本書在第2章至第9章安排了豐富的實踐操作,實現了理論與實踐的有機結合,幫助讀者更好地學習和掌握數據采集與預處理的關鍵技術。本書可以作為高等院校大數據專業的大數據課程教材,也可以作為計算機相關專業的專業課或選修課教材,同時也可以作為從事大數據相關專業的工作人員的參考用書。
·7.8萬字