官术网_书友最值得收藏!

1.4.2 必讀圖書

本節只列舉通用類的圖書,特定領域(如時序數據挖掘)的圖書或論文將在具體章節給出。按照算法、工具、應用案例三類,給出一些推薦書目,見表1-6。

表1-6 數據分析圖書推薦

對大部分工程應用,有算法原理的基本了解就夠了,但算法研究者,應知其所以然。EoSL(Element of Statistical Learning)、PRML(Pattern Recognition&Machine Learning)、MLAP(Machine Learning:A Probabilistic Perspective)、Pattern Classification(中譯本《模式分類》)是公認的四本經典圖書。EoSL是斯坦福大學統計系三位統計大家的著作,各種算法的講解從基本思想娓娓道來,輔以淺顯易懂的圖形展示,公式簡潔明了,為了邏輯的連續性,很多定理證明簡單略過,給人以信手拈來的感覺,值得數據分析師反復研讀。EoSL讀起來很順暢,但要完全讀懂對讀者的數學素養要求還挺高。為了進一步降低要求,ISL(An Introduction to Statistical Learning with Applications in R)繼承了EoSL的風格,但側重算法應用,更加適合入門。PRML和MLAP是從貝葉斯角度論述機器學習的經典之作,相對于EoSL側重算法思想演化的討論,PRML更側重公式推導,讀起來更辛苦。MLAP在概念的圖示化方面做得很好,有更直觀的理解。《模式分類》中的圖比較多,入門要求不高,這本書的第1版于1973年出版,第2版于2000年出版,單看這兩個時間,大家就知道什么叫經典。深度學習方面當然是Goodfellow、Bengio和Courville三人合寫的Deep Learning那本書,把不同深度學習網絡背后的基本思想介紹得非常透徹。在統計算法方面,Larry Wassermand的兩本書All of Statistics:A Concise Course in Statistical InferenceAll of Nonparametric Statistics簡潔明了,重要概念和算法背后的思考及應用前提都介紹得非常清楚。MASS這本書與R語言的MASS包對應,是理解各種統計算法的好書。Givens和Hoeting的《計算統計(第2版)》直觀解釋了很多統計算法的計算過程。

在算法快速入門上,除了ISL,還有Machine Learning RefinedIntroduction to Machine Learning等圖書,國內有韓家煒的中譯本《數據挖掘概念與技術》、周志華的《機器學習》和李航的《統計學習方法》(第2版),都很系統全面地介紹了常用的算法。另外,Morgan&Claypool Publisher的Synthesis Lectures on Artificial Intelligence&Machine Learning從書中的發展前沿綜述對全面了解新領域有很大幫助。

還有一類算法書值得讀者翻閱,一種就是日本學者的《圖解機器學習》《圖解深度學習》等書,能以最簡單的方式介紹各種算法,需要的功力比一本算法教材要深得多。國內出版的《百面機器學習》以面試問答的形式,讓大家從反向的角度將算法知識再梳理一遍。另外,NIST的Engineering Statistics HandbookData Mining and Knowledge Discovery Handbook這兩本手冊分別將統計、數據挖掘算法框架系統性總結了一遍,能夠幫助讀者建立起概念的框架。

在工具軟件領域,O’Reilly、CRC、Manning等知名出版社出版了很多經典的Cookbook、In Action之類的經典圖書,也有對應的中譯本,是掌握分析工具的好書。Springer的User R系列叢書對不同主題的R語言應用有詳細的介紹。《應用預測建模》對于R語言caret包,系統介紹了回歸、分類建模中的各個算法。對于Python,scikit-learn官網上的大量例子是了解各種算法的好起點。最后,Journal of Statistical Software雜志是討論各種統計分析軟件包的好地方,很多優秀R語言包都是在這個雜志上介紹的。

很多工具書都帶有一些小的例子,但Data Mining with R:Learning with Case Studies有更加系統的例子,端到端地展示了建模過程。

本節僅簡單列舉了部分比較好的圖書,還有很多精彩圖書將在具體章節中給出。另外,更多優秀的圖書和論文也在不斷涌現。但無論如何發展,很多基本思想是不變的(將在下節討論),而這樣的思想通常出現在算法發明人和技術大家的專著和論文中,特別是外文經典書籍、期刊論文(例如Annals of Statistics期刊有很多經典統計學習算法原作者的論文和權威專家點評),希望大家盡可能多讀讀這些經典,獲得的將不僅僅是知識和技能,而是這些算法背后的思考、深入淺出的解釋以及算法適用范圍的討論。

主站蜘蛛池模板: 西充县| 武宣县| 隆尧县| 香港 | 连州市| 麦盖提县| 汉沽区| 开江县| 夏河县| 金坛市| 西峡县| 日土县| 岫岩| 阿城市| 西充县| 镇原县| 辽中县| 贵南县| 喀喇| 苍梧县| 右玉县| 咸宁市| 仙居县| 旅游| 内黄县| 屏东县| 庆城县| 甘南县| 宁德市| 图片| 宁远县| 阿瓦提县| 阆中市| 洛南县| 九台市| 北京市| 英吉沙县| 石楼县| 乌拉特中旗| 蒲江县| 高安市|