- 工業(yè)大數(shù)據(jù)分析算法實(shí)戰(zhàn)
- 田春華
- 283字
- 2023-05-06 17:52:32
2.1 數(shù)據(jù)操作基礎(chǔ)
數(shù)據(jù)框(Data Frame)是機(jī)器學(xué)習(xí)中用得最多的一種數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)框由多行多列組成,每列是同一種數(shù)據(jù)類型,但不同列的數(shù)據(jù)類型可以不同(與矩陣類型的區(qū)別),類似JDBC編程中數(shù)據(jù)集對象RecordSet。機(jī)器學(xué)習(xí)很多算法和數(shù)據(jù)預(yù)處理函數(shù)都是圍繞Data Frame展開,R語言和Python Pandas有深入的支持,就如同MATLAB等科學(xué)計(jì)算軟件以向量/矩陣為中心。在R語言中,既支持向量、矩陣、字符串、列表(List)等常見數(shù)據(jù)類型,也提供了因子(Factor)數(shù)據(jù)類型,解決名義變量(例如性別)和有序變量(例如報(bào)警等級)在機(jī)器學(xué)習(xí)中的特別處理要求,例如,因子量不能像連續(xù)變量那樣參與四則運(yùn)算,在存儲效率上Factor比原始的變量類型(特別是字符串)更高。
推薦閱讀
- 數(shù)據(jù)要素安全流通
- 數(shù)據(jù)庫技術(shù)與應(yīng)用教程(Access)
- 信息系統(tǒng)與數(shù)據(jù)科學(xué)
- 大數(shù)據(jù)可視化
- Python廣告數(shù)據(jù)挖掘與分析實(shí)戰(zhàn)
- MySQL基礎(chǔ)教程
- 數(shù)據(jù)庫系統(tǒng)原理及應(yīng)用教程(第4版)
- 數(shù)據(jù)要素五論:信息、權(quán)屬、價(jià)值、安全、交易
- 深入淺出MySQL:數(shù)據(jù)庫開發(fā)、優(yōu)化與管理維護(hù)(第2版)
- Scratch 3.0 藝術(shù)進(jìn)階
- 數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典
- 圖數(shù)據(jù)實(shí)戰(zhàn):用圖思維和圖技術(shù)解決復(fù)雜問題
- 聯(lián)動Oracle:設(shè)計(jì)思想、架構(gòu)實(shí)現(xiàn)與AWR報(bào)告
- Oracle 11g+ASP.NET數(shù)據(jù)庫系統(tǒng)開發(fā)案例教程
- Nagios Core Administrators Cookbook