- 工業大數據分析算法實戰
- 田春華
- 774字
- 2023-05-06 17:52:27
1.2.2 分析課題的執行路徑
課題成熟度的差異和分析師經驗知識體系的差異,使得不同項目在CRISP-DM的“業務理解”環節中差異很大,在執行中具體體現為3類典型場景。
1)業務規劃類:只有一個大概的業務愿景或目標,如用大數據提高產品質量、用大數據構建精加工工業互聯網(對第三方開放自己的精加工能力)。此時需要業務分析師與客戶一起從業務角度分解業務愿景,并將其歸結為若干個數據分析問題。
2)業務問題理解類:有明確的業務需求(如備件需求預測)。這時我們需要將組織結構、業務流程、典型的業務場景(如促銷、囤貨、地區公司合并等)等業務上下文信息進行細化與理解。
3)數據分析問題定義類:有些問題不涉及業務上下文,如監控圖像識別。這時只需要將業務期望(如檢出率、誤報率、處理速度等要求)確認清楚即可。
在工作量上,“業務理解”和“數據準備”往往會占用75%以上的時間。很多分析問題的定義需要在迭代中不斷理清;Data Schema(數據模式)層面的數據預處理(包括數據類型及值域檢查、數據集的合并等)通常比較簡單,但業務語義上的數據質量問題只能在數據探索和建模過程中不斷被發現。
在經典的CRISP-DM方法中,假設分析課題是給定的,“業務理解”只是對該課題的業務背景和含義進行理解。但很多數據分析項目并不是這樣,它們需要分析人員根據業務需求不斷細化和定義,這在工業大數據領域更為普遍。工業數據分析常常出現知識嚴重二分的情形。數據分析師對工業過程缺乏深入了解,而業界人員對數據分析的了解相對缺乏,需要一種好的方法把兩個領域結合起來,以定義一個有價值且可落地的數據分析課題。
典型工業問題的定義的方法在《工業大數據分析實踐》[2] 一書中有詳細的論述,另外,還對CRISP-DM方法的6個步驟在工業領域的應用做了細化,如圖1-9所示,可以看出系統運行機理和業務場景在工業數據分析中的重要程度。為避免內容的重復,這里不再贅述。

圖1-9 CRISP-DM方法論在工業領域中的細化
- Building Computer Vision Projects with OpenCV 4 and C++
- 數據分析實戰:基于EXCEL和SPSS系列工具的實踐
- 算法競賽入門經典:習題與解答
- Python廣告數據挖掘與分析實戰
- Oracle RAC 11g實戰指南
- 數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow
- TextMate How-to
- Augmented Reality using Appcelerator Titanium Starter
- 企業主數據管理實務
- 數據指標體系:構建方法與應用實踐
- 數據會說話:活用數據表達、說服與決策
- 實用預測分析
- Scratch Cookbook
- SQL應用開發參考手冊
- SQL必知必會(第5版)