官术网_书友最值得收藏!

1.2 數據挖掘的過程方法

數據挖掘是一個復雜過程,需要一個明確方法有序有效地組織這個過程。早期有SPSS提出的5A(Assess,Access,Analysis,Act,Automae)模型,SAS提出的SEMMA(Sample,Explore,Modify,Model,Assess)模型,1998年NCR(Teradata從NCR脫離出來)、Clementine(1998年被SPSS收購)、OHRA和Daimler-Benz聯合項目組提出了CRISP-DM(Cross-Industry Standard Process for Data Mining),分為業(yè)務理解(Business Understanding)、數據理解(Data Understanding)、數據準備(Data Preparation)、模型建立(Modeling)、模型評估(Evaluation)、模型部署(Deployment)6個階段,它已經成為目前的事實標準[4] 。2016年微軟提出的TDSP(Team Data Science Process)將數據挖掘分為業(yè)務理解、數據獲取與理解、建模、部署、用戶接受5個階段。這些方法框架與CRISP-DM基本思想一致,下面重點介紹CRISP-DM方法。

主站蜘蛛池模板: 茂名市| 济南市| 南雄市| 桑日县| 阿合奇县| 陵水| 漳平市| 四子王旗| 咸阳市| 益阳市| 右玉县| 马尔康县| 桦南县| 迁西县| 略阳县| 泗阳县| 同心县| 桐庐县| 石首市| 融水| 江西省| 庆元县| 渝中区| 信丰县| 广安市| 泾阳县| 盐池县| 肃北| 唐山市| 富阳市| 绍兴市| 烟台市| 廉江市| 黎平县| 崇信县| 航空| 许昌市| 佛冈县| 崇左市| 林州市| 繁昌县|