- 利用Python進行數據分析(原書第2版)
- (美)韋斯·麥金尼
- 7字
- 2019-01-05 06:07:20
第1章 準備工作
1.1 本書內容
本書關注的是利用Python操作、處理、清洗和操作數據時的基本要點。我的目標是提供一份Python編程語言以及Python面向數據的類庫生態系統和工具的指南,該指南將幫助你成為一個高效的數據分析師。盡管“數據分析”出現在書名里,但本書將明確專注于Python語言的編程、類庫、工具而不是數據分析方法論。這就是你需要的Python數據分析編程。
1.1.1 什么類型的數據
當我說“數據”時,我想表達的準確含義是什么?主要的關注點是結構化數據,這個有意義的術語包含了眾多常見的數據形式,例如:
· 表格型的數據,每一列可能會包含不同的類型(字符串、數值、日期或其他)。這類數據包含了大部分類型的數據,它們通常存儲在關系型數據庫或者由制表符、逗號分隔的文本文件中。
· 多維數組(矩陣)。
· 由鍵位列關聯的多張表數據(對于SQL用戶來說就是主鍵或外鍵)。
· 均勻或非均勻的時間序列。
以上是一份大致完整的清單。但該清單有時并不完全準確,很多數據集可以轉換為一種更適合分析、建模的結構形式。如果不進行轉換,從數據集中提取特征形成一種結構形式也是可行的。例如,一個新聞文章的數據集可以被處理為一個詞頻表,然后再用于情感分析。
大部分表格程序(比如微軟Excel,或許是全世界應用最廣泛的數據分析工具)的用戶對這些類型的數據并不陌生。
推薦閱讀
- 數據可視化:從小白到數據工程師的成長之路
- Word 2010中文版完全自學手冊
- Python廣告數據挖掘與分析實戰
- 數據化網站運營深度剖析
- INSTANT Cytoscape Complex Network Analysis How-to
- Learning Proxmox VE
- SQL Server 2012數據庫管理教程
- HikariCP連接池實戰
- 智慧的云計算
- 區域云計算和大數據產業發展:浙江樣板
- 改變未來的九大算法
- The Natural Language Processing Workshop
- 信息融合中估計算法的性能評估
- PostgreSQL高可用實戰
- Cognitive Computing with IBM Watson