大數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)
大數(shù)據(jù)時(shí)代的到來,使我們的生活在政治、經(jīng)濟(jì)、社會、文化各個(gè)領(lǐng)域都產(chǎn)生了很大改變。“數(shù)據(jù)科學(xué)”一詞應(yīng)運(yùn)而生。如何更好地對海量數(shù)據(jù)進(jìn)行分析、得出結(jié)論并做出智能決策是統(tǒng)計(jì)工作者面臨的機(jī)遇與挑戰(zhàn)。本書介紹數(shù)據(jù)挖掘與統(tǒng)計(jì)機(jī)器學(xué)習(xí)領(lǐng)域最常用的模型和算法,包括最基礎(chǔ)的線性回歸和線性分類方法,以及模型選擇和模型評價(jià)的概念和方法,進(jìn)而介紹非線性的回歸和分類方法(包括決策樹與組合方法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)以及在此基礎(chǔ)上發(fā)展的深度學(xué)習(xí)方法)。最后介紹無監(jiān)督的學(xué)習(xí)中的聚類方法和業(yè)界廣泛使用的推薦系統(tǒng)方法。除了方法的理論講解之外,我們給出了每種方法的R語言實(shí)現(xiàn),以及應(yīng)用Python語言實(shí)現(xiàn)深度學(xué)習(xí)和支持向量機(jī)兩種方法。本書的一個(gè)亮點(diǎn)是最后一章給出的兩個(gè)大數(shù)據(jù)案例,數(shù)據(jù)量均在10G左右。我們同時(shí)給出了單機(jī)版(Python、數(shù)據(jù)庫、R)和分布式(Hadoop、Hive、Spark)兩種實(shí)現(xiàn)方案。原始數(shù)據(jù)和程序代碼均可在出版社提供的網(wǎng)址下載。本書面向的主要讀者是應(yīng)用統(tǒng)計(jì)專業(yè)碩士,希望能夠拓展到統(tǒng)計(jì)專業(yè)高年級的本科生以及其他各個(gè)領(lǐng)域有數(shù)據(jù)分析需求的學(xué)生和從業(yè)人員。
·11.6萬字