官术网_书友最值得收藏!

第1章 準備工作

1.1 本書內容

本書關注的是利用Python操作、處理、清洗和操作數據時的基本要點。我的目標是提供一份Python編程語言以及Python面向數據的類庫生態系統和工具的指南,該指南將幫助你成為一個高效的數據分析師。盡管“數據分析”出現在書名里,但本書將明確專注于Python語言的編程、類庫、工具而不是數據分析方法論。這就是你需要的Python數據分析編程。

1.1.1 什么類型的數據

當我說“數據”時,我想表達的準確含義是什么?主要的關注點是結構化數據,這個有意義的術語包含了眾多常見的數據形式,例如:

· 表格型的數據,每一列可能會包含不同的類型(字符串、數值、日期或其他)。這類數據包含了大部分類型的數據,它們通常存儲在關系型數據庫或者由制表符、逗號分隔的文本文件中。

· 多維數組(矩陣)。

· 由鍵位列關聯的多張表數據(對于SQL用戶來說就是主鍵或外鍵)。

· 均勻或非均勻的時間序列。

以上是一份大致完整的清單。但該清單有時并不完全準確,很多數據集可以轉換為一種更適合分析、建模的結構形式。如果不進行轉換,從數據集中提取特征形成一種結構形式也是可行的。例如,一個新聞文章的數據集可以被處理為一個詞頻表,然后再用于情感分析。

大部分表格程序(比如微軟Excel,或許是全世界應用最廣泛的數據分析工具)的用戶對這些類型的數據并不陌生。

主站蜘蛛池模板: 华容县| 固阳县| 宜川县| 廊坊市| 乐至县| 漳浦县| 宁强县| 通榆县| 金坛市| 塘沽区| 长丰县| 蒙阴县| 天全县| 都江堰市| 长沙县| 三穗县| 扎赉特旗| 汨罗市| 城口县| 化隆| 陈巴尔虎旗| 攀枝花市| 平泉县| 西乌珠穆沁旗| 安福县| 谷城县| 万载县| 新乡市| 栾川县| 綦江县| 东莞市| 玉树县| 华亭县| 织金县| 南召县| 吉林市| 大关县| 汉寿县| 天津市| 宜都市| 延寿县|