- 工業大數據分析算法實戰
- 田春華
- 1402字
- 2023-05-06 17:52:30
1.4.2 必讀圖書
本節只列舉通用類的圖書,特定領域(如時序數據挖掘)的圖書或論文將在具體章節給出。按照算法、工具、應用案例三類,給出一些推薦書目,見表1-6。
表1-6 數據分析圖書推薦

對大部分工程應用,有算法原理的基本了解就夠了,但算法研究者,應知其所以然。EoSL(Element of Statistical Learning)、PRML(Pattern Recognition&Machine Learning)、MLAP(Machine Learning:A Probabilistic Perspective)、Pattern Classification(中譯本《模式分類》)是公認的四本經典圖書。EoSL是斯坦福大學統計系三位統計大家的著作,各種算法的講解從基本思想娓娓道來,輔以淺顯易懂的圖形展示,公式簡潔明了,為了邏輯的連續性,很多定理證明簡單略過,給人以信手拈來的感覺,值得數據分析師反復研讀。EoSL讀起來很順暢,但要完全讀懂對讀者的數學素養要求還挺高。為了進一步降低要求,ISL(An Introduction to Statistical Learning with Applications in R)繼承了EoSL的風格,但側重算法應用,更加適合入門。PRML和MLAP是從貝葉斯角度論述機器學習的經典之作,相對于EoSL側重算法思想演化的討論,PRML更側重公式推導,讀起來更辛苦。MLAP在概念的圖示化方面做得很好,有更直觀的理解。《模式分類》中的圖比較多,入門要求不高,這本書的第1版于1973年出版,第2版于2000年出版,單看這兩個時間,大家就知道什么叫經典。深度學習方面當然是Goodfellow、Bengio和Courville三人合寫的Deep Learning那本書,把不同深度學習網絡背后的基本思想介紹得非常透徹。在統計算法方面,Larry Wassermand的兩本書All of Statistics:A Concise Course in Statistical Inference、All of Nonparametric Statistics簡潔明了,重要概念和算法背后的思考及應用前提都介紹得非常清楚。MASS這本書與R語言的MASS包對應,是理解各種統計算法的好書。Givens和Hoeting的《計算統計(第2版)》直觀解釋了很多統計算法的計算過程。
在算法快速入門上,除了ISL,還有Machine Learning Refined、Introduction to Machine Learning等圖書,國內有韓家煒的中譯本《數據挖掘概念與技術》、周志華的《機器學習》和李航的《統計學習方法》(第2版),都很系統全面地介紹了常用的算法。另外,Morgan&Claypool Publisher的Synthesis Lectures on Artificial Intelligence&Machine Learning從書中的發展前沿綜述對全面了解新領域有很大幫助。
還有一類算法書值得讀者翻閱,一種就是日本學者的《圖解機器學習》《圖解深度學習》等書,能以最簡單的方式介紹各種算法,需要的功力比一本算法教材要深得多。國內出版的《百面機器學習》以面試問答的形式,讓大家從反向的角度將算法知識再梳理一遍。另外,NIST的Engineering Statistics Handbook、Data Mining and Knowledge Discovery Handbook這兩本手冊分別將統計、數據挖掘算法框架系統性總結了一遍,能夠幫助讀者建立起概念的框架。
在工具軟件領域,O’Reilly、CRC、Manning等知名出版社出版了很多經典的Cookbook、In Action之類的經典圖書,也有對應的中譯本,是掌握分析工具的好書。Springer的User R系列叢書對不同主題的R語言應用有詳細的介紹。《應用預測建模》對于R語言caret包,系統介紹了回歸、分類建模中的各個算法。對于Python,scikit-learn官網上的大量例子是了解各種算法的好起點。最后,Journal of Statistical Software雜志是討論各種統計分析軟件包的好地方,很多優秀R語言包都是在這個雜志上介紹的。
很多工具書都帶有一些小的例子,但Data Mining with R:Learning with Case Studies有更加系統的例子,端到端地展示了建模過程。
本節僅簡單列舉了部分比較好的圖書,還有很多精彩圖書將在具體章節中給出。另外,更多優秀的圖書和論文也在不斷涌現。但無論如何發展,很多基本思想是不變的(將在下節討論),而這樣的思想通常出現在算法發明人和技術大家的專著和論文中,特別是外文經典書籍、期刊論文(例如Annals of Statistics期刊有很多經典統計學習算法原作者的論文和權威專家點評),希望大家盡可能多讀讀這些經典,獲得的將不僅僅是知識和技能,而是這些算法背后的思考、深入淺出的解釋以及算法適用范圍的討論。
- Word 2010中文版完全自學手冊
- Hands-On Machine Learning with Microsoft Excel 2019
- 信息系統與數據科學
- Creating Dynamic UIs with Android Fragments(Second Edition)
- Ceph源碼分析
- Python金融數據分析(原書第2版)
- 網站數據庫技術
- IPython Interactive Computing and Visualization Cookbook(Second Edition)
- 新手學會計(2013-2014實戰升級版)
- MySQL技術內幕:SQL編程
- Spring MVC Beginner’s Guide
- 數據庫查詢優化器的藝術:原理解析與SQL性能優化
- 數據中心經營之道
- 數字化轉型實踐:構建云原生大數據平臺
- 工業大數據融合體系結構與關鍵技術