官术网_书友最值得收藏!

2.1 數(shù)據(jù)操作基礎(chǔ)

數(shù)據(jù)框(Data Frame)是機(jī)器學(xué)習(xí)中用得最多的一種數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)框由多行多列組成,每列是同一種數(shù)據(jù)類型,但不同列的數(shù)據(jù)類型可以不同(與矩陣類型的區(qū)別),類似JDBC編程中數(shù)據(jù)集對象RecordSet。機(jī)器學(xué)習(xí)很多算法和數(shù)據(jù)預(yù)處理函數(shù)都是圍繞Data Frame展開,R語言和Python Pandas有深入的支持,就如同MATLAB等科學(xué)計(jì)算軟件以向量/矩陣為中心。在R語言中,既支持向量、矩陣、字符串、列表(List)等常見數(shù)據(jù)類型,也提供了因子(Factor)數(shù)據(jù)類型,解決名義變量(例如性別)和有序變量(例如報(bào)警等級)在機(jī)器學(xué)習(xí)中的特別處理要求,例如,因子量不能像連續(xù)變量那樣參與四則運(yùn)算,在存儲效率上Factor比原始的變量類型(特別是字符串)更高。

主站蜘蛛池模板: 苗栗市| 四川省| 屏南县| 怀远县| 西吉县| 社会| 张家界市| 孟州市| 云安县| 嘉义市| 黎城县| 安义县| 华池县| 平乡县| 通辽市| 邓州市| 静宁县| 宣化县| 绿春县| 同德县| 平利县| 新民市| 金坛市| 穆棱市| 射阳县| 广安市| 河曲县| 永修县| 屏山县| 潞西市| 陈巴尔虎旗| 江城| 定边县| 剑川县| 于田县| 阜南县| 汤阴县| 河源市| 界首市| 云浮市| 西安市|