- 數據中臺架構:企業數據化最佳實踐
- 張旭等
- 2197字
- 2020-06-05 16:54:50
3.3 數據中臺建設五步法
3.3.1 數據中臺建設五步法概述
數據中臺建設五步法是我們在多個數據中臺項目落地實踐中總結出的一套方法論。在數據中臺項目落地中,我們可以根據具體項目情況對其中的一個或者幾個部分的內容做重點的加強或者減弱,甚至可以只在其中一個方面做重點突破和攻關。我們對數據中臺建設五步法總結的目的是相對地規范企業數據中臺建設的步驟和架構,五步法只是企業整體數據化建設的啟動。我們希望通過這五個標準的步驟,全面啟動企業數據化建設,并且讓這個過程不斷地持續運行,最終達到當前技術和方法所能支撐的企業全面數據化的勝利彼岸。
3.3.2 第一步:數據資源的盤點與規劃
數據化的基礎是信息化或者信息化所產生的數據。這些數據本就有數據化的含義,同時這些數據又會進入數據化框架體系,繼續通過計算產出更多的數據和更大的價值。所以,對企業數據資源的盤點是數據化建設的前提和基礎。一份完整、準確的數據資源是后續數據化建設的有力保障。
數據資源的盤點與規劃需要達到以下目的:
(1)對現有數據資源盤點和統計。
(2)對企業可以擁有或者應該擁有的數據資源進行規劃。
(3)構建盤點體系并使用必要工具,保證盤點的成果能夠始終與真實情況相符。
3.3.3 第二步:數據應用規劃與設計
企業要基于現有的技術條件和方案,進行相對完整的數據應用規劃。這個步驟可以回答如下問題。
1.企業中有哪些數據需求
我們要從業務線、業務層級到最細粒度的崗位,梳理數據需求。
2.企業應該構建哪些數據應用
我們要圍繞數據需求進行數據應用的整體規劃和設計。
3.應該按照什么順序實現這些數據應用
我們要對數據應用建立評估模型,評估的維度包括數據應用是否可以實現、數據應用的業務價值、數據應用的實現成本這三個主要方面。通過評定結果,我們可以確定數據應用的實現路徑。
3.3.4 第三步:數據資產建設
數據資產的建設要依托數據中臺的核心產品完成。數據資產是企業數據化建設的關鍵基礎。所有的數據化建設最后都以數據資產為基礎,并且圍繞這個基礎展開。數據資產將是企業在全面數據化建設前期中投入最多、見效最慢的基礎層模塊。關于數據中臺的種種探討和爭議以及妥協的很大一部分原因是這個基礎建設龐大、復雜和投入高。
數據資產建設的內容包括以下幾個方面。
1.技術建設
(1)產品選型。產品選型包括如何選擇數據中臺產品、數據中臺產品應該具備的功能以及技術參數指標。
(2)技術架構設計。技術架構設計包括數據中臺產品如何部署、如何替換傳統的數據倉庫或者與之并行、數據中臺如何抽取當前的應用數據。
2.標準和數據倉庫模型構建
(1)建模及開發規范。建模及開發規范包括數據倉庫模型設計規范的制定,數據開發規范的制定,如何避免當前較為常見的數據開發混亂、難以運維的情況。
(2)數據建模。數據建模包括進行數據倉庫模型構建,并提交評審。
3.數據抽取、數據開發、任務監控與運維
(1)數據抽取。數據抽取包括從數據資源層抽取數據進入ODS層。
(2)數據開發。數據開發包括進行數據任務開發,進行數據清洗、數據計算。
(3)任務監控與運維。任務監控與運維包括監控所有數據任務,對異常和錯誤任務進行必要的人工干預和處理。
4.數據質量校驗
數據質量校驗包括對當前發現的數據質量問題進行校驗和處理,推動數據治理工作開展和持續優化。
5.數據應用支撐
數據應用支撐包括為當前的數據應用開發提供支撐開發平臺。
3.3.5 第四步:數據應用的詳細設計與實現
不管是使用瀑布模型還是敏捷模型,數據應用的設計大體上都可以遵循傳統信息化應用設計的過程和理念。數據應用中的數據開發一般在數據庫或者數據倉庫中完成。數據應用的內容展示可以采用BI分析工具展現,例如可視化大屏或者定制化開發應用。數據應用還可以通過API接口服務提供數據成果,讓其他外部應用按需調用。數據應用的開發與傳統信息化應用的開發有以下不同之處。
1.數據應用關注數據源的內容和質量
我們在數據應用實施前應該充分了解企業當前的數據源情況,包括數據種類、每種數據的具體屬性、數據內容的質量等問題。大部分落地失敗的數據應用,都是由數據源的各種問題引起的,比如數據缺失或者數據質量問題。
2.復雜的數據開發需要不斷調優和迭代
隨著機器學習、深度學習等算法的引入,數據模型的構建手段越來越豐富。但是在通常情況下,最終業務價值的產生是一個復雜的過程,不僅需要數據的支撐,還需要管理的配合。
3.數據應用的結果數據的驗證工作量占比高
論證數據結果的正確與否或者評估數據應用的效果,是一項費時、費力的工作。即使相對簡單的指標計算,最后也經常會占用全部過程中1/3以上的時間進行正確性驗證。甚至很多算法類項目,需要提前構建成果評估模型,并首先獲得甲方企業的認可,然后才能開始進行數據開發。
4.數據應用的運維難度大
因為數據中的各種異常情況往往是不可知或者意想不到的,所以數據運維需要有強大的人工保障,以保持任務的運轉。
5.數據應用的成果需要運營
數據應用的開發完成只是數據發揮價值的第一步,如何讓業務部門理解模型、用好數據才是后續的關鍵。尤其是在剛剛引入新的數據,且尚未顯現業務價值的時候,企業更需要對數據進行深入運營。
3.3.6 第五步:數據化組織規劃
企業數據化應該是在未來一個時期內具有企業戰略高度的事情,數據化需要一個具有同等戰略高度的組織負責推進。無論是從傳統的IT部門轉型還是由戰略部門或者類似部門介入都是很好的選擇。組織是保障數據中臺順利落地的一個核心,也是推動企業數據化進程的人員抓手。