官术网_书友最值得收藏!

2.3 機(jī)器學(xué)習(xí)模型開(kāi)發(fā)的工作流程

模型開(kāi)發(fā)的工作流程主要分為數(shù)據(jù)預(yù)處理、建立模型、驗(yàn)證模型及優(yōu)化模型,如圖2-6所示。在大多數(shù)情況下,該模型是按順序執(zhí)行的;在優(yōu)化模型之后,還需要對(duì)模型進(jìn)行驗(yàn)證,故需要重新訓(xùn)練并驗(yàn)證。下面詳細(xì)介紹每個(gè)步驟的意義。

圖2-6 機(jī)器學(xué)習(xí)開(kāi)發(fā)流程圖

數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是指對(duì)所收集的數(shù)據(jù)進(jìn)行分類(lèi)或者分組前所做的審核、篩選、排序、轉(zhuǎn)化及變形等必要的處理方法。在現(xiàn)實(shí)場(chǎng)景中,采集的數(shù)據(jù)并不能被計(jì)算機(jī)識(shí)別,或者用于訓(xùn)練效果不佳,從而出現(xiàn)數(shù)據(jù)缺失、數(shù)據(jù)分布不平衡、數(shù)據(jù)結(jié)構(gòu)不合理、數(shù)據(jù)不可識(shí)別等多種情況。

建立模型

建立模型是模型開(kāi)發(fā)中的一個(gè)重要步驟。其中,該步驟涉及模型的選型,根據(jù)不同的場(chǎng)景(回歸、分類(lèi)及聚類(lèi))選擇相應(yīng)的模型;在選型完成后,通過(guò)數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,模型訓(xùn)練的過(guò)程是通過(guò)數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行調(diào)整。

驗(yàn)證模型

驗(yàn)證模型是模型開(kāi)發(fā)中的一個(gè)重要步驟,有助于找到預(yù)測(cè)數(shù)據(jù)的最佳模型。在這種方法中,將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集、測(cè)試集3個(gè)子集。

訓(xùn)練集是用于建立預(yù)測(cè)模型的子集。

驗(yàn)證集是用于評(píng)估訓(xùn)練階段所建立模型的性能的子集。它通過(guò)對(duì)模型參數(shù)進(jìn)行精細(xì)調(diào)整,從而選擇最佳性能模型。但并非所有建模算法都需要一個(gè)驗(yàn)證集。

測(cè)試集是檢驗(yàn)最終選擇最優(yōu)模型的性能的子集。

根據(jù)實(shí)際應(yīng)用場(chǎng)景,驗(yàn)證方法又分為分類(lèi)驗(yàn)證、聚類(lèi)驗(yàn)證、回歸驗(yàn)證。

·分類(lèi)驗(yàn)證——用于驗(yàn)證分類(lèi)效果的方法,如ROC曲線(xiàn)、混淆矩陣等。

·聚類(lèi)驗(yàn)證——用于檢驗(yàn)聚類(lèi)效果的方法,如調(diào)整隨機(jī)指數(shù)、調(diào)整交互信息得分等。

·回歸驗(yàn)證——用于檢驗(yàn)回歸效果的方法,如平均絕對(duì)誤差、均方誤差、方差等。

優(yōu)化模型

在模型開(kāi)發(fā)過(guò)程中,有些涉及模型結(jié)構(gòu)的參數(shù)并不會(huì)參與到模型本身的參數(shù)訓(xùn)練中,這些涉及模型結(jié)構(gòu)的參數(shù)被稱(chēng)為超參數(shù)(Hyper-Parameter),在不改變?cè)心P捅旧韰?shù)(被訓(xùn)練)的情況下,對(duì)超參數(shù)進(jìn)行調(diào)整,可以使模型的性能在驗(yàn)證時(shí)取得更好的效果。

優(yōu)化的方式有很多,如網(wǎng)格搜索(Grid Search)、隨機(jī)搜索(Random Search)、彈性網(wǎng)絡(luò)交叉驗(yàn)證、最小角回歸交叉驗(yàn)證、LASSO交叉驗(yàn)證等。

主站蜘蛛池模板: 修水县| 甘洛县| 定日县| 资兴市| 航空| 什邡市| 永新县| 浪卡子县| 武义县| 建瓯市| 江达县| 象山县| 桐乡市| 汪清县| 惠州市| 伊川县| 建瓯市| 溧水县| 垣曲县| 西乡县| 徐汇区| 晋宁县| 额济纳旗| 陵川县| 西乌| 华容县| 舞钢市| 锦屏县| 宁陵县| 平陆县| 永胜县| 崇礼县| 阜康市| 六盘水市| 湘潭市| 仙桃市| 汪清县| 乐山市| 聊城市| 弥勒县| 修文县|