官术网_书友最值得收藏!

2.1.1 數據框的基本操作

數據框的基本操作包括:數據框創建、維度信息查看、排序、子集選擇/查詢、數據集修改、數據集統計/整合等單數據框操作,以及兩個數據框的合并,見表2-1。詳細的函數列表可以參閱R語言的dplyr包[1] 和Python Pandas[2] 的備忘清單(Cheat Sheet)。

這些操作函數是數據分析的基礎,需要熟練靈活掌握。關于R語言和Python Pandas,已經有很多優秀的圖書,例如《R語言實戰》[3] 《R語言核心技術手冊》[4] 《R數據科學》[5] 和《Python數據科學手冊》[6] ,對于一些高級用法,可以參閱《高級R語言編程指南》[7] 和《R的極客理想:工具篇》[8]

表2-1 數據框的基本操作

除了base、stats等基礎包外,R還提供了dplyr、tidyr、tidyverse、magrittr等包方便數據框的處理。具體函數本節不做重復性的介紹。但有些常用函數需要特別注意,例如,is.na研判NA數值、complete.cases用來判斷每行記錄數據是否完整、pmax常用來在矩陣求每行的多列的最大值、cumsum是向量的累積求和(可以用來算累積時長)。另外,各種apply函數簡潔表達一些循環計算。reshape2包的melt、各種cast函數在一些數據框的處理中經常采用(例如ggplot2包畫圖時不同類別用不同顏色,通常在數據框中做加工)。

主站蜘蛛池模板: 望江县| 深水埗区| 红原县| 缙云县| 洛阳市| 菏泽市| 蒙自县| 固安县| 冀州市| 房山区| 区。| 吉首市| 兖州市| 平潭县| 大埔区| 紫金县| 化德县| 蒲城县| 常宁市| 内丘县| 桂平市| 福鼎市| 深水埗区| 梁河县| 池州市| 收藏| 湘潭县| 明星| 秭归县| 毕节市| 永登县| 临朐县| 平南县| 子长县| 津南区| 宁都县| 恩平市| 兴仁县| 体育| 高淳县| 鄂尔多斯市|