- 工業大數據分析算法實戰
- 田春華
- 449字
- 2023-05-06 17:52:32
2.1.1 數據框的基本操作
數據框的基本操作包括:數據框創建、維度信息查看、排序、子集選擇/查詢、數據集修改、數據集統計/整合等單數據框操作,以及兩個數據框的合并,見表2-1。詳細的函數列表可以參閱R語言的dplyr包[1] 和Python Pandas[2] 的備忘清單(Cheat Sheet)。
這些操作函數是數據分析的基礎,需要熟練靈活掌握。關于R語言和Python Pandas,已經有很多優秀的圖書,例如《R語言實戰》[3] 《R語言核心技術手冊》[4] 《R數據科學》[5] 和《Python數據科學手冊》[6] ,對于一些高級用法,可以參閱《高級R語言編程指南》[7] 和《R的極客理想:工具篇》[8] 。
表2-1 數據框的基本操作

除了base、stats等基礎包外,R還提供了dplyr、tidyr、tidyverse、magrittr等包方便數據框的處理。具體函數本節不做重復性的介紹。但有些常用函數需要特別注意,例如,is.na研判NA數值、complete.cases用來判斷每行記錄數據是否完整、pmax常用來在矩陣求每行的多列的最大值、cumsum是向量的累積求和(可以用來算累積時長)。另外,各種apply函數簡潔表達一些循環計算。reshape2包的melt、各種cast函數在一些數據框的處理中經常采用(例如ggplot2包畫圖時不同類別用不同顏色,通常在數據框中做加工)。