PySpark大數(shù)據(jù)分析與應(yīng)用
本書以Python作為開發(fā)語言,系統(tǒng)介紹PySpark開發(fā)環(huán)境搭建流程及基于PySpark進行大數(shù)據(jù)分析的相關(guān)知識。本書條理清晰、重點突出,理論敘述循序漸進、由淺入深。本書共7章,第1?5章包括PySpark大數(shù)據(jù)分析概述、PySpark安裝配置、基于PySpark的DataFrame操作、基于PySpark的流式數(shù)據(jù)處理、基于PySpark的機器學習庫,內(nèi)容介紹注重理論與實踐相結(jié)合,通過典型示例強化PySpark在大數(shù)據(jù)分析中的實際應(yīng)用;第6、7章通過基于PySpark的網(wǎng)絡(luò)招聘信息的職業(yè)類型劃分和基于PySpark的信用貸款風險分析兩個完整的案例實戰(zhàn),結(jié)合前5章的PySpark編程知識,實現(xiàn)完整的大數(shù)據(jù)分析過程。本書大部分章包含實訓和課后習題,讀者通過練習和操作實踐,能夠鞏固所學的內(nèi)容。本書可作為高校數(shù)據(jù)科學或大數(shù)據(jù)相關(guān)專業(yè)的教材,也可作為機器學習愛好者的自學用書。
·10.4萬字