官术网_书友最值得收藏!

1.2.2 分析課題的執行路徑

課題成熟度的差異和分析師經驗知識體系的差異,使得不同項目在CRISP-DM的“業務理解”環節中差異很大,在執行中具體體現為3類典型場景。

1)業務規劃類:只有一個大概的業務愿景或目標,如用大數據提高產品質量、用大數據構建精加工工業互聯網(對第三方開放自己的精加工能力)。此時需要業務分析師與客戶一起從業務角度分解業務愿景,并將其歸結為若干個數據分析問題。

2)業務問題理解類:有明確的業務需求(如備件需求預測)。這時我們需要將組織結構、業務流程、典型的業務場景(如促銷、囤貨、地區公司合并等)等業務上下文信息進行細化與理解。

3)數據分析問題定義類:有些問題不涉及業務上下文,如監控圖像識別。這時只需要將業務期望(如檢出率、誤報率、處理速度等要求)確認清楚即可。

在工作量上,“業務理解”和“數據準備”往往會占用75%以上的時間。很多分析問題的定義需要在迭代中不斷理清;Data Schema(數據模式)層面的數據預處理(包括數據類型及值域檢查、數據集的合并等)通常比較簡單,但業務語義上的數據質量問題只能在數據探索和建模過程中不斷被發現。

在經典的CRISP-DM方法中,假設分析課題是給定的,“業務理解”只是對該課題的業務背景和含義進行理解。但很多數據分析項目并不是這樣,它們需要分析人員根據業務需求不斷細化和定義,這在工業大數據領域更為普遍。工業數據分析常常出現知識嚴重二分的情形。數據分析師對工業過程缺乏深入了解,而業界人員對數據分析的了解相對缺乏,需要一種好的方法把兩個領域結合起來,以定義一個有價值且可落地的數據分析課題。

典型工業問題的定義的方法在《工業大數據分析實踐》[2] 一書中有詳細的論述,另外,還對CRISP-DM方法的6個步驟在工業領域的應用做了細化,如圖1-9所示,可以看出系統運行機理和業務場景在工業數據分析中的重要程度。為避免內容的重復,這里不再贅述。

圖1-9 CRISP-DM方法論在工業領域中的細化

主站蜘蛛池模板: 博白县| 临桂县| 平塘县| 湖南省| 吉隆县| 苍山县| 连江县| 长春市| SHOW| 德令哈市| 天水市| 莎车县| 县级市| 来宾市| 德江县| 韶关市| 上高县| 安泽县| 黄龙县| 射阳县| 乐陵市| 边坝县| 渝中区| 松桃| 来凤县| 水城县| 饶阳县| 盐源县| 闵行区| 布拖县| 额敏县| 塘沽区| 桐城市| 石门县| 体育| 沙田区| 吉林市| 慈利县| 禹城市| 宁国市| 漳州市|