- 利用Python進行數(shù)據(jù)分析(原書第2版)
- (美)韋斯·麥金尼
- 1028字
- 2019-01-05 06:07:21
1.6 快速瀏覽本書
如果你從未使用Python編程,你需要在第2章和第3章上花些時間,這兩章我提供了一份關(guān)于Python語言特征、IPython命令行和Jupyter notebook的教程。這些內(nèi)容是本書后續(xù)章節(jié)所需的預(yù)備知識。如果已經(jīng)有Python經(jīng)驗,你可以跳過這兩章。
下一章,我會簡單介紹NumPy的關(guān)鍵特性,并在附錄A中提供高級的NumPy使用技術(shù)。之后,我會介紹pandas,并將本書后續(xù)內(nèi)容集中于應(yīng)用pandas、NumPy和matplotlib(可視化)進行數(shù)據(jù)分析的主題上。我已經(jīng)盡可能地按照遞增的方式來組織全書的內(nèi)容,但在部分章節(jié)中偶爾還是會有些細微的交叉,比如一些還不需要引入概念的獨立場景。
盡管讀者們可能會有很多不同的工作目的,但工作任務(wù)大體上會分為以下幾個部分。
與外部世界交互
讀寫各種格式的文件以及數(shù)據(jù)存儲
準備
對分析數(shù)據(jù)進行清洗、處理、聯(lián)合、正態(tài)化、重組、切片、切塊和轉(zhuǎn)換
轉(zhuǎn)換
將數(shù)學(xué)或統(tǒng)計操作應(yīng)用到數(shù)據(jù)集的分組上以產(chǎn)生新的數(shù)據(jù)集(例如通過分組參數(shù)對一張大表進行聚合)
建模和計算
將數(shù)據(jù)接入到統(tǒng)計模型、機器學(xué)習(xí)算法和其他計算工具上
演示
創(chuàng)建動態(tài)或靜態(tài)的圖形可視化或文字概述
1.6.1 代碼示例
本書大部分代碼示例會按照IPython或Jupyter notebook中的形式用輸入In和輸出Out展現(xiàn):
In [5]: CODE EXAMPLE Out[5]: OUTPUT
當你看到這樣的代碼示例時,其用意就是讓你將示例代碼輸入到In區(qū),然后按下回車鍵執(zhí)行代碼(Jupyter中按下shift-Enter),然后輸出結(jié)果展現(xiàn)在Out區(qū)。
1.6.2 示例數(shù)據(jù)
每章的示例數(shù)據(jù)托管在GitHub倉庫(http://github.com/wesm/pydata-book)上。你可以在命令行中使用Git版本控制系統(tǒng)下載這些數(shù)據(jù),也可以直接從GitHub網(wǎng)站上下載數(shù)據(jù)的zip打包文件。如果你遇到了問題,請在我個人網(wǎng)站(http://wesmckinney.com)上獲取關(guān)于如何獲得本書資料的最新指引。
我已經(jīng)盡了最大的努力保障這包含了復(fù)現(xiàn)示例所需的所有事項,但可能還有一些錯誤或遺漏。如果發(fā)現(xiàn)了錯誤或遺漏,請給我發(fā)郵件:book@wesmckinney.com。報告本書錯誤的最佳途徑位于O'Reilly網(wǎng)站上的勘誤頁(http://bit.ly/pyDataAnalysis_errata)。
1.6.3 導(dǎo)入約定
Python社區(qū)對一些常用模塊采用了命名約定:
import numpy as np import matplotlib.pyplot as plt import pandas as pd import seaborn as sns import statsmodels as sm
這意味著,當你看到np.arrange時,它引用的是NumPy中的arrange函數(shù)。這是因為一次性從像NumPy這樣的大包中引入所有內(nèi)容(from numpy import *)在Python軟件開發(fā)中被認為是拙劣實踐。
1.6.4 術(shù)語
我會使用編程和數(shù)據(jù)科學(xué)中的一些術(shù)語,這些術(shù)語你可能不熟悉,以下是一些簡單的定義。
處理/處置/規(guī)整(munge/munging/wrangling)
描述的是將非結(jié)構(gòu)化或者同時又很凌亂的數(shù)據(jù)整理成結(jié)構(gòu)化、清晰形式的整個過程。時下,這個詞在很多數(shù)據(jù)駭客中流傳。在英文中,“Munge”(處理)和“grunge”(垃圾)諧音。
偽代碼
用一種類似代碼的形式描述算法或者過程,而事實上又不是實際有效的源代碼。
語法糖
并不增加新特性,但便利于代碼編寫的編程語法。
- 數(shù)據(jù)浪潮
- Word 2010中文版完全自學(xué)手冊
- Python金融大數(shù)據(jù)分析(第2版)
- 文本數(shù)據(jù)挖掘:基于R語言
- Mastering Machine Learning with R(Second Edition)
- Learn Unity ML-Agents:Fundamentals of Unity Machine Learning
- 軟件成本度量國家標準實施指南:理論、方法與實踐
- 跟老男孩學(xué)Linux運維:MySQL入門與提高實踐
- 深入淺出Greenplum分布式數(shù)據(jù)庫:原理、架構(gòu)和代碼分析
- MATLAB Graphics and Data Visualization Cookbook
- PostgreSQL指南:內(nèi)幕探索
- 達夢數(shù)據(jù)庫運維實戰(zhàn)
- 數(shù)據(jù)庫原理與應(yīng)用
- Node.js High Performance
- 數(shù)據(jù)挖掘算法實踐與案例詳解