官术网_书友最值得收藏!

1.2.1 CRISP-DM簡介

CRISP-DM是一種被廣泛采用的數據挖掘分析方法框架,它認為數據挖掘是如圖1-7所示的業務理解、數據理解、數據準備、模型建立、模型評估、模型部署6個階段的迭代過程。和一般的IT項目不同,分析項目的不同階段之間存在很強的迭代關系。

圖1-7 CRISP-DM方法

1)業務理解:這一初始階段集中在從業務角度理解項目的目標和要求,然后把理解轉化為數據挖掘問題的定義和一個初步執行計劃。狹義的業務理解指的是理解業務部門或業務分析師提出的業務問題,廣義的業務理解還包括數據分析師主動發掘和定義問題。廣義的業務理解對數據分析師的要求非常高,不僅要有整體技術研判力(可行性、技術難度、關鍵技術點),還要有業務洞察力,可以定義出可執行有價值的好問題。

2)數據理解:始于原始數據的收集,然后熟悉數據,標明數據質量問題,對數據進行初步探索和理解,發掘值得關注的數據子集以形成對隱藏信息的假設。

3)數據準備:包括從原始數據集到最終數據集的所有活動。數據準備任務可能迭代多次,而且不存在一成不變的順序。這些任務包括數據的整合、選擇、清洗、特征加工。

4)模型建立:主要是分析算法選擇、超參數調優和模型融合。在做的過程中,通常會發現新的數據質量問題,因此,常常需要返回到數據準備階段。

5)模型評估:進入這個階段時,已經建立了一個或多個相對可靠的模型。在模型最后發布前,需要更徹底地評估模型和檢查建立模型的各步驟,從而確保它真正達到了業務目標和落地應用條件。此階段的關鍵目的是檢查是否忽略了一些重要的業務場景。關于數據挖掘模型是否可用的決定應該在此階段確定下來。

6)模型部署:模型的建立并不是項目的結尾,通常需要以業務應用的形式發布和部署模型。即使建模僅是為了增加對數據的了解,所獲得的洞察通常也需要以一種客戶能夠理解的方式呈現出來。

CRISP-DM對每個階段的活動做了細化[5] ,使其成為一個具有指導性的方法論,如圖1-8所示。即便如此,對于特定領域的數據分析來說,我們也需要在CRISP-DM方法論的基礎上,加入領域特征,細化活動內容,實例化交付物,明確側重點,使其成為在特定領域內具有可操作性的方法論。

圖1-8 CRISP-DM每個階段的執行內容

在最后,也簡要提一下CRISP-DM的締造者之一Tom Khabaza總結的數據挖掘9大定律:①Business Goals Law:每個數據挖掘解決方案的根源都是有業務目標的;②Business Knowledge Law:數據挖掘過程的每一步都需要以業務或領域信息為中心;③Data Preparation Law:數據準備與處理是數據挖掘的基礎,其工作量通常占數據分析過程50%以上;④No Free Lunch Law(沒有免費午餐):做到極致后,提高一個指標必然會犧牲另外一個指標,或者說,任何模型都是有適用前提的;⑤Watkins’Law:在數據的世界里,總是有模式可循的,找不到規律不是因為規律不存在,而是因為還沒有發現它;⑥Insight Law:數據挖掘可以有效發現單純人工很難發現的信息與規律,輔助領域專家從業務角度的解讀和決策;⑦Prediction Law:基于數據驅動方法的統計泛化能力,預測結果增加了樣本的局部信息;⑧Value Law:數據挖掘模型再精準,沒有業務應用也是沒有價值的;⑨Law of Change:不存在一成不變的模式,一定要不斷關注訓練出的模型的有效性。上面這9條其實歸根到底就是業務邏輯決定數據挖掘。純粹為了追求高深的數據挖掘算法技術,而忽略了業務目的、業務應用的做法是本末倒置。

主站蜘蛛池模板: 蕲春县| 昌都县| 读书| 枣阳市| 临清市| 怀仁县| 江津市| 隆昌县| 湖北省| 苏尼特左旗| 威远县| 大庆市| 扶风县| 灌云县| 囊谦县| 海阳市| 会泽县| 库车县| 东海县| 揭西县| 九江县| 蓬安县| 莫力| 怀来县| 敦化市| 丰都县| 南木林县| 崇礼县| 图片| 迁西县| 开平市| 通辽市| 株洲县| 水富县| 滦南县| 汉川市| 清丰县| 高密市| 浙江省| 罗平县| 鄢陵县|