官术网_书友最值得收藏!

第4章 Sklearn之?dāng)?shù)據(jù)預(yù)處理

數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。顧名思義,特征工程的本質(zhì)是一項(xiàng)工程活動(dòng),目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。數(shù)據(jù)預(yù)處理作為特征工程中的一個(gè)主要部分,我們有必要先對(duì)其進(jìn)行了解。

本章將根據(jù)機(jī)器學(xué)習(xí)的模型開發(fā)流程最初始的步驟——數(shù)據(jù)預(yù)處理進(jìn)行詳細(xì)介紹。簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)預(yù)處理就是將原始數(shù)據(jù)轉(zhuǎn)化為便于機(jī)器學(xué)習(xí)模型學(xué)習(xí)的數(shù)據(jù)。但在實(shí)際生活場(chǎng)景中,文本及圖像等非數(shù)字?jǐn)?shù)據(jù)應(yīng)當(dāng)如何處理?數(shù)據(jù)本身的結(jié)構(gòu)問(wèn)題(如缺失、取值范圍過(guò)大、結(jié)構(gòu)不平衡等問(wèn)題)又該如何解決?

通過(guò)學(xué)習(xí)本章,讀者可以了解以下幾方面內(nèi)容。

·數(shù)據(jù)預(yù)處理的種類;

·數(shù)據(jù)預(yù)處理的常用方法及場(chǎng)景;

·用Sklearn如何實(shí)現(xiàn)數(shù)據(jù)預(yù)處理。

主站蜘蛛池模板: 江阴市| 应城市| 夏邑县| 上虞市| 苗栗市| 霍山县| 麻栗坡县| 准格尔旗| 阿拉善盟| 静安区| 兴安县| 井研县| 福贡县| 平顶山市| 喀喇| 高唐县| 临高县| 贡觉县| 诸暨市| 门头沟区| 墨竹工卡县| 固安县| 松潘县| 油尖旺区| 泽库县| 福鼎市| 正安县| 宁陵县| 蓝田县| 临洮县| 定安县| 重庆市| 丘北县| 如皋市| 大同县| 天津市| 威信县| 长沙县| 二连浩特市| 崇义县| 宿迁市|