- 工業(yè)大數據分析算法實戰(zhàn)
- 田春華
- 272字
- 2023-05-06 17:52:26
1.2 數據挖掘的過程方法
數據挖掘是一個復雜過程,需要一個明確方法有序有效地組織這個過程。早期有SPSS提出的5A(Assess,Access,Analysis,Act,Automae)模型,SAS提出的SEMMA(Sample,Explore,Modify,Model,Assess)模型,1998年NCR(Teradata從NCR脫離出來)、Clementine(1998年被SPSS收購)、OHRA和Daimler-Benz聯合項目組提出了CRISP-DM(Cross-Industry Standard Process for Data Mining),分為業(yè)務理解(Business Understanding)、數據理解(Data Understanding)、數據準備(Data Preparation)、模型建立(Modeling)、模型評估(Evaluation)、模型部署(Deployment)6個階段,它已經成為目前的事實標準[4] 。2016年微軟提出的TDSP(Team Data Science Process)將數據挖掘分為業(yè)務理解、數據獲取與理解、建模、部署、用戶接受5個階段。這些方法框架與CRISP-DM基本思想一致,下面重點介紹CRISP-DM方法。
推薦閱讀