- 利用Python進行數據分析(原書第2版)
- (美)韋斯·麥金尼
- 812字
- 2019-01-05 06:07:21
第2章 Python語言基礎、IPython及Jupyter notebook
2011年到2012年,我寫了本書的第1版,當時并沒有多少Python數據分析資源。這是個蛋生雞、雞生蛋的問題:很多我們現在覺得理所當然的庫,比如pandas、scikit-learn和statsmodels在當時并不成熟。2017年,出現了大量關于數據科學、數據分析以及機器學習的文獻,補充了先前僅面向計算機科學家、物理學家和其他研究領域的專業人員的通用科學計算工作。此外,還出現了大量非常優秀的書籍,這些書主要是關于Python編程語言自身以及如何成為高效的Python軟件工程師。
本書是介紹如何使用Python處理數據的,我認為獨立地概述一下Python內建數據結構的特性以及數據操作方面的庫是很有必要的。因此,本章及第3章將介紹一些基本信息和知識,這些信息足以確保你讀懂本書的后續章節。
在我看來,在Python中高效地分析數據并不需要完全精通如何利用Python語言開發軟件。推薦使用IPython命令行和Jupyter notebook來實驗代碼示例,以及探索各種類型、函數和方法的文檔。盡管我已經盡量按照增量方式來展現書中的內容,但可能還會偶爾遇到一些沒有完全介紹的內容。
本書的大部分內容是關于如何基于數據表進行分析以及用于大型數據集的數據準備工具。為了使用這些工具,通常必須先把凌亂數據整理為更好看的(或者說更結構化的)表格形式。幸運的是,Python就是一個將數據快速規整為合理形式的理想語言。使用Python語言的能力越強,準備待分析數據集的工作就越輕松。
本書的一些工具最好是通過IPython或者Jupyter會話來探索。一旦學會了如何使用IPython和Jupyter來探索數據,我推薦你實驗本書的示例并且可以再實驗嘗試一些別的內容。和其他鍵盤控制的命令行環境一樣,練就常用命令的肌肉記憶也是學習曲線的一部分。
有一些Python中的概念在本章并未提及,比如類和面向對象編程,你會發現這些概念其實在Python數據分析中也是有用的。
為了加深你的Python知識,建議通過Python官方教程或者一本優秀的通用Python編程書籍來補充本章沒有介紹的內容。推薦的入門書籍包括:
·《Python Cookbook》(第3版),作者為David Beazley和Brian K. Jones(O'Reilly)
·《Fluent Python》,作者為Luciano Ramalho(O'Reilly)
·《Effective Python》,作者為Brett Slatkin(Pearson)