官术网_书友最值得收藏!

第1章 準備工作

1.1 本書內(nèi)容

本書關(guān)注的是利用Python操作、處理、清洗和操作數(shù)據(jù)時的基本要點。我的目標是提供一份Python編程語言以及Python面向數(shù)據(jù)的類庫生態(tài)系統(tǒng)和工具的指南,該指南將幫助你成為一個高效的數(shù)據(jù)分析師。盡管“數(shù)據(jù)分析”出現(xiàn)在書名里,但本書將明確專注于Python語言的編程、類庫、工具而不是數(shù)據(jù)分析方法論。這就是你需要的Python數(shù)據(jù)分析編程。

1.1.1 什么類型的數(shù)據(jù)

當我說“數(shù)據(jù)”時,我想表達的準確含義是什么?主要的關(guān)注點是結(jié)構(gòu)化數(shù)據(jù),這個有意義的術(shù)語包含了眾多常見的數(shù)據(jù)形式,例如:

· 表格型的數(shù)據(jù),每一列可能會包含不同的類型(字符串、數(shù)值、日期或其他)。這類數(shù)據(jù)包含了大部分類型的數(shù)據(jù),它們通常存儲在關(guān)系型數(shù)據(jù)庫或者由制表符、逗號分隔的文本文件中。

· 多維數(shù)組(矩陣)。

· 由鍵位列關(guān)聯(lián)的多張表數(shù)據(jù)(對于SQL用戶來說就是主鍵或外鍵)。

· 均勻或非均勻的時間序列。

以上是一份大致完整的清單。但該清單有時并不完全準確,很多數(shù)據(jù)集可以轉(zhuǎn)換為一種更適合分析、建模的結(jié)構(gòu)形式。如果不進行轉(zhuǎn)換,從數(shù)據(jù)集中提取特征形成一種結(jié)構(gòu)形式也是可行的。例如,一個新聞文章的數(shù)據(jù)集可以被處理為一個詞頻表,然后再用于情感分析。

大部分表格程序(比如微軟Excel,或許是全世界應(yīng)用最廣泛的數(shù)據(jù)分析工具)的用戶對這些類型的數(shù)據(jù)并不陌生。

主站蜘蛛池模板: 兴隆县| 拜泉县| 鄂州市| 梁山县| 阜城县| 攀枝花市| 昌平区| 宿州市| 织金县| 朝阳区| 会宁县| 泰宁县| 吴忠市| 阳曲县| 七台河市| 焦作市| 大余县| 郯城县| 台前县| 康定县| 渭源县| 台江县| 惠来县| 临颍县| 嵊泗县| 汶川县| 临湘市| 镇江市| 康平县| 吉林市| 彩票| 瑞丽市| 巫山县| 金溪县| 平顺县| 盐源县| 平度市| 唐海县| 墨玉县| 江山市| 青冈县|