官术网_书友最值得收藏!

1.4.4 工程化思維

工業大數據分析項目是工程項目,需要在嚴謹與實用之間均衡。需要注意幾個工程性原則。

1.實用主義與全局視野

盡可能抓住主要矛盾和核心要素,不要過分糾結細節,形成相對精準的直覺判斷力,對工作的側重點有一個合理的安排。在建模時,在保證基本面的情況下,盡量用簡單的模型,特別是可解釋性強、可操作性強的模型。為了細微的性能提升,采用高復雜度的模型不是一個好習慣。盡量利用領域專家的先驗信息,而不是從零開始挖掘。

在數據分析中,注意迭代速度,通過迭代,將領域專家、業務負責人緊密融入項目中。特別是第一次數據探索的時候,對于數據質量問題,做到清楚基本面,不要在細節上花太多時間(例如,缺失數據用非常嚴謹的態度去修正)。第一次探索要的是快速掌握基本面,找出具體問題請教領域專家,在模型可能精度和適用范圍的研判基礎上,與業務負責人開始探討,這樣數據分析師也可能更深入地了解領域,同時讓各方都有個正確的期望。在迭代中,不斷提高數據處理和模型的嚴謹程度。

2.系統化思維與主動思考

分析課題不是封閉的考題,數據分析師要有主動思考的習慣,不要盲信他人圈定的范圍,使用數據集的維度可以擴充,甚至要解決的問題也是可以重新定義的。

對業務問題最好有個層次化的分解(可以在推進過程中不斷優化),放在業務上下文去思考,這樣容易建立起項目團隊的共同的理解,數據分析師不要變成被動響應需求的“報表師”。另外,要注意文檔的邏輯性,總結文檔是一段工作的歸納,不是數據探索過程的流水賬。

3.大膽嘗試,小心求證

保持必要的好奇心,把所有的想法和假設都記錄下來并進行檢驗,這樣才可能在現有領域專家工作成果的基礎上更進一步。對于分析結果,堅持因果邏輯檢驗,避免辛普森悖論、幸存者偏差、賭徒謬論等統計陷阱[40]

同時,對于數據分析模型和結果保持嚴謹態度,盡可能去實際生產環境中驗證,發現潛在的風險,清晰闡述模型的適用范疇。對于應用效果,要客觀審視提升的原因,避免夸大數據分析的作用。

主站蜘蛛池模板: 中宁县| 黎城县| 泸州市| 阿合奇县| 奎屯市| 南宁市| 巩义市| 娄烦县| 栾城县| 纳雍县| 灵山县| 长春市| 古蔺县| 锦州市| 盐亭县| 乌兰察布市| 南溪县| 台州市| 冷水江市| 北辰区| 红安县| 灵台县| 五台县| 绍兴县| 来宾市| 辛集市| 上高县| 民丰县| 阜城县| 贵溪市| 綦江县| 永顺县| 会理县| 曲靖市| 河源市| 万宁市| 荥阳市| 平顶山市| 上思县| 民勤县| 呈贡县|