- 機(jī)器學(xué)習(xí)從入門(mén)到入職:用sklearn與keras搭建人工智能模型
- 張威
- 828字
- 2020-05-22 17:14:09
2.3 機(jī)器學(xué)習(xí)模型開(kāi)發(fā)的工作流程
模型開(kāi)發(fā)的工作流程主要分為數(shù)據(jù)預(yù)處理、建立模型、驗(yàn)證模型及優(yōu)化模型,如圖2-6所示。在大多數(shù)情況下,該模型是按順序執(zhí)行的;在優(yōu)化模型之后,還需要對(duì)模型進(jìn)行驗(yàn)證,故需要重新訓(xùn)練并驗(yàn)證。下面詳細(xì)介紹每個(gè)步驟的意義。

圖2-6 機(jī)器學(xué)習(xí)開(kāi)發(fā)流程圖
數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是指對(duì)所收集的數(shù)據(jù)進(jìn)行分類(lèi)或者分組前所做的審核、篩選、排序、轉(zhuǎn)化及變形等必要的處理方法。在現(xiàn)實(shí)場(chǎng)景中,采集的數(shù)據(jù)并不能被計(jì)算機(jī)識(shí)別,或者用于訓(xùn)練效果不佳,從而出現(xiàn)數(shù)據(jù)缺失、數(shù)據(jù)分布不平衡、數(shù)據(jù)結(jié)構(gòu)不合理、數(shù)據(jù)不可識(shí)別等多種情況。
建立模型
建立模型是模型開(kāi)發(fā)中的一個(gè)重要步驟。其中,該步驟涉及模型的選型,根據(jù)不同的場(chǎng)景(回歸、分類(lèi)及聚類(lèi))選擇相應(yīng)的模型;在選型完成后,通過(guò)數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,模型訓(xùn)練的過(guò)程是通過(guò)數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行調(diào)整。
驗(yàn)證模型
驗(yàn)證模型是模型開(kāi)發(fā)中的一個(gè)重要步驟,有助于找到預(yù)測(cè)數(shù)據(jù)的最佳模型。在這種方法中,將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集、驗(yàn)證集、測(cè)試集3個(gè)子集。
訓(xùn)練集是用于建立預(yù)測(cè)模型的子集。
驗(yàn)證集是用于評(píng)估訓(xùn)練階段所建立模型的性能的子集。它通過(guò)對(duì)模型參數(shù)進(jìn)行精細(xì)調(diào)整,從而選擇最佳性能模型。但并非所有建模算法都需要一個(gè)驗(yàn)證集。
測(cè)試集是檢驗(yàn)最終選擇最優(yōu)模型的性能的子集。
根據(jù)實(shí)際應(yīng)用場(chǎng)景,驗(yàn)證方法又分為分類(lèi)驗(yàn)證、聚類(lèi)驗(yàn)證、回歸驗(yàn)證。
·分類(lèi)驗(yàn)證——用于驗(yàn)證分類(lèi)效果的方法,如ROC曲線(xiàn)、混淆矩陣等。
·聚類(lèi)驗(yàn)證——用于檢驗(yàn)聚類(lèi)效果的方法,如調(diào)整隨機(jī)指數(shù)、調(diào)整交互信息得分等。
·回歸驗(yàn)證——用于檢驗(yàn)回歸效果的方法,如平均絕對(duì)誤差、均方誤差、方差等。
優(yōu)化模型
在模型開(kāi)發(fā)過(guò)程中,有些涉及模型結(jié)構(gòu)的參數(shù)并不會(huì)參與到模型本身的參數(shù)訓(xùn)練中,這些涉及模型結(jié)構(gòu)的參數(shù)被稱(chēng)為超參數(shù)(Hyper-Parameter),在不改變?cè)心P捅旧韰?shù)(被訓(xùn)練)的情況下,對(duì)超參數(shù)進(jìn)行調(diào)整,可以使模型的性能在驗(yàn)證時(shí)取得更好的效果。
優(yōu)化的方式有很多,如網(wǎng)格搜索(Grid Search)、隨機(jī)搜索(Random Search)、彈性網(wǎng)絡(luò)交叉驗(yàn)證、最小角回歸交叉驗(yàn)證、LASSO交叉驗(yàn)證等。
- Canvas LMS Course Design
- Hands-On Machine Learning on Google Cloud Platform
- Learning Azure Cosmos DB
- 單片機(jī)C語(yǔ)言程序設(shè)計(jì)完全自學(xué)手冊(cè)
- HTML5 Canvas Cookbook
- 基于企業(yè)網(wǎng)站的顧客感知服務(wù)質(zhì)量評(píng)價(jià)理論模型與實(shí)證研究
- 電氣控制與PLC原理及應(yīng)用(歐姆龍機(jī)型)
- Introduction to R for Business Intelligence
- 計(jì)算智能算法及其生產(chǎn)調(diào)度應(yīng)用
- Hadoop Beginner's Guide
- 智能+:制造業(yè)的智能化轉(zhuǎn)型
- Advanced Deep Learning with Keras
- Hands-On Microservices with C#
- 菜鳥(niǎo)起飛五筆打字高手
- EDA技術(shù)及其創(chuàng)新實(shí)踐(Verilog HDL版)