精通Spark數(shù)據(jù)科學(xué)
ApacheSpark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎。這是一本專門介紹Spark的圖書,旨在教會讀者利用Spark構(gòu)建實用的數(shù)據(jù)科學(xué)解決方案。本書內(nèi)容包括14章,由淺入深地介紹了數(shù)據(jù)科學(xué)生態(tài)系統(tǒng)、數(shù)據(jù)獲取、輸入格式與模式、探索性數(shù)據(jù)分析、利用Spark進(jìn)行地理分析、采集基于鏈接的外部數(shù)據(jù)、構(gòu)建社區(qū)、構(gòu)建推薦系統(tǒng)、新聞詞典和實時標(biāo)記系統(tǒng)、故事除重和變遷、情感分析中的異常檢測、趨勢演算、數(shù)據(jù)保護(hù)和可擴展算法。本書適合數(shù)據(jù)科學(xué)家以及對數(shù)據(jù)科學(xué)、機器學(xué)習(xí)感興趣的讀者閱讀,需要讀者具備數(shù)據(jù)科學(xué)相關(guān)的基礎(chǔ)知識,并通過閱讀本書進(jìn)一步提升Spark運用能力,從而創(chuàng)建出高效且實用的數(shù)據(jù)科學(xué)解決方案。
·18.4萬字