- 利用Python進行數(shù)據(jù)分析(原書第2版)
- (美)韋斯·麥金尼
- 521字
- 2019-01-05 06:07:20
第1章 準備工作
1.1 本書內(nèi)容
本書關(guān)注的是利用Python操作、處理、清洗和操作數(shù)據(jù)時的基本要點。我的目標是提供一份Python編程語言以及Python面向數(shù)據(jù)的類庫生態(tài)系統(tǒng)和工具的指南,該指南將幫助你成為一個高效的數(shù)據(jù)分析師。盡管“數(shù)據(jù)分析”出現(xiàn)在書名里,但本書將明確專注于Python語言的編程、類庫、工具而不是數(shù)據(jù)分析方法論。這就是你需要的Python數(shù)據(jù)分析編程。
1.1.1 什么類型的數(shù)據(jù)
當我說“數(shù)據(jù)”時,我想表達的準確含義是什么?主要的關(guān)注點是結(jié)構(gòu)化數(shù)據(jù),這個有意義的術(shù)語包含了眾多常見的數(shù)據(jù)形式,例如:
· 表格型的數(shù)據(jù),每一列可能會包含不同的類型(字符串、數(shù)值、日期或其他)。這類數(shù)據(jù)包含了大部分類型的數(shù)據(jù),它們通常存儲在關(guān)系型數(shù)據(jù)庫或者由制表符、逗號分隔的文本文件中。
· 多維數(shù)組(矩陣)。
· 由鍵位列關(guān)聯(lián)的多張表數(shù)據(jù)(對于SQL用戶來說就是主鍵或外鍵)。
· 均勻或非均勻的時間序列。
以上是一份大致完整的清單。但該清單有時并不完全準確,很多數(shù)據(jù)集可以轉(zhuǎn)換為一種更適合分析、建模的結(jié)構(gòu)形式。如果不進行轉(zhuǎn)換,從數(shù)據(jù)集中提取特征形成一種結(jié)構(gòu)形式也是可行的。例如,一個新聞文章的數(shù)據(jù)集可以被處理為一個詞頻表,然后再用于情感分析。
大部分表格程序(比如微軟Excel,或許是全世界應(yīng)用最廣泛的數(shù)據(jù)分析工具)的用戶對這些類型的數(shù)據(jù)并不陌生。
- 數(shù)據(jù)之巔:數(shù)據(jù)的本質(zhì)與未來
- Python數(shù)據(jù)分析入門:從數(shù)據(jù)獲取到可視化
- 云計算環(huán)境下的信息資源集成與服務(wù)
- Python金融大數(shù)據(jù)分析(第2版)
- MySQL從入門到精通(第3版)
- 工業(yè)大數(shù)據(jù)分析算法實戰(zhàn)
- 深入淺出 Hyperscan:高性能正則表達式算法原理與設(shè)計
- SQL Server 2012數(shù)據(jù)庫管理教程
- 云數(shù)據(jù)中心網(wǎng)絡(luò)與SDN:技術(shù)架構(gòu)與實現(xiàn)
- 改變未來的九大算法
- The Natural Language Processing Workshop
- 數(shù)據(jù)應(yīng)用工程:方法論與實踐
- Unity Game Development Blueprints
- 數(shù)字化轉(zhuǎn)型實踐:構(gòu)建云原生大數(shù)據(jù)平臺
- 碼上行動:利用Python與ChatGPT高效搞定Excel數(shù)據(jù)分析