大數據挖掘與統計機器學習
大數據時代的到來,使我們的生活在政治、經濟、社會、文化各個領域都產生了很大改變。“數據科學”一詞應運而生。如何更好地對海量數據進行分析、得出結論并做出智能決策是統計工作者面臨的機遇與挑戰。本書介紹數據挖掘與統計機器學習領域最常用的模型和算法,包括最基礎的線性回歸和線性分類方法,以及模型選擇和模型評價的概念和方法,進而介紹非線性的回歸和分類方法(包括決策樹與組合方法、支持向量機、神經網絡以及在此基礎上發展的深度學習方法)。最后介紹無監督的學習中的聚類方法和業界廣泛使用的推薦系統方法。除了方法的理論講解之外,我們給出了每種方法的R語言實現,以及應用Python語言實現深度學習和支持向量機兩種方法。本書的一個亮點是最后一章給出的兩個大數據案例,數據量均在10G左右。我們同時給出了單機版(Python、數據庫、R)和分布式(Hadoop、Hive、Spark)兩種實現方案。原始數據和程序代碼均可在出版社提供的網址下載。本書面向的主要讀者是應用統計專業碩士,希望能夠拓展到統計專業高年級的本科生以及其他各個領域有數據分析需求的學生和從業人員。
·11.6萬字