饿了么众包怎么下载

書名：工業大數據分析算法實戰
作者名：田春華
本章字數： 449字
更新時間： 2023-05-06 17:52:32

2.1.1 數據框的基本操作

數據框的基本操作包括：數據框創建、維度信息查看、排序、子集選擇/查詢、數據集修改、數據集統計/整合等單數據框操作，以及兩個數據框的合并，見表2-1。詳細的函數列表可以參閱R語言的dplyr包[1] 和Python Pandas[2] 的備忘清單（Cheat Sheet）。

這些操作函數是數據分析的基礎，需要熟練靈活掌握。關于R語言和Python Pandas，已經有很多優秀的圖書，例如《R語言實戰》[3] 《R語言核心技術手冊》[4] 《R數據科學》[5] 和《Python數據科學手冊》[6] ，對于一些高級用法，可以參閱《高級R語言編程指南》[7] 和《R的極客理想：工具篇》[8] 。

表2-1 數據框的基本操作

除了base、stats等基礎包外，R還提供了dplyr、tidyr、tidyverse、magrittr等包方便數據框的處理。具體函數本節不做重復性的介紹。但有些常用函數需要特別注意，例如，is.na研判NA數值、complete.cases用來判斷每行記錄數據是否完整、pmax常用來在矩陣求每行的多列的最大值、cumsum是向量的累積求和（可以用來算累積時長）。另外，各種apply函數簡潔表達一些循環計算。reshape2包的melt、各種cast函數在一些數據框的處理中經常采用（例如ggplot2包畫圖時不同類別用不同顏色，通常在數據框中做加工）。

官术网_书友最值得收藏!

工業大數據分析算法實戰

2.1.1 數據框的基本操作