- 主數據管理:企業數據化建設基礎
- 張旭 陳吉平 楊海峰等
- 1695字
- 2021-10-15 19:05:09
3.5 數據的分類規范
3.5.1 主數據分類屬性及其作用
對主數據進行分類有兩種作用,一種是便于查找,另一種是便于統計分析??偟膩碚f,對主數據的分類也代表了我們的一種觀察視角。我們曾經粗淺地學習過,植物分類學最早的分類方式是通過性狀進行分類,技術進步后就通過基因排序進行分類,但我們發現在一個城市的植物園中,對植物的分類則首先分為觀賞植物和非觀賞性植物。所以分類是一種視角,并沒有嚴格的對錯之分,只是更加通用的視角使用得更多,更為被人們所接受。
每當我們在主數據屬性中加入一個枚舉屬性或引用另一個主數據時(無論是參照數據還是另一個主數據),都可以理解為這個主數據增加了一個分類屬性。
比如,人員中加入了一個枚舉的“性別”屬性,這個性別屬性中有三個枚舉值,分別是“男”“女”“其他”,或者加入了一個“崗位”的參照數據屬性。
還有一種情況是一個主數據引用了另一個主數據,這也會增加一種主數據分類。還是以人員主數據為例,其含有一個“所屬部門”的主數據屬性,這樣我們就能夠知道這個員工屬于哪個部門。同時,部門主數據又是一個單獨的主數據,人員主數據和部門主數據之間是參照引用的關系。
3.5.2 確定主數據分類屬性的方法
每個主數據都有很多分類屬性,針對這些分類屬性,哪些可以納入主數據范疇的判斷方法類似于主數據應該包含哪些屬性信息的判斷方法。
通常我們希望將主數據描述實體的一些客觀基本分類屬性納入主數據范疇。我們在對主數據進行統計分析或畫像標簽時,會根據需求對主數據增加新的分類屬性,這種分類屬性因分析的業務需求而增加,主數據管理體系也應當提供支撐能力。但在此種情況下,需要注意數據的補錄工作。如果是標簽類屬性,可以由交易數據和行為數據計算得出;如果是一個陌生的分類,則需要進行一系列的動作才能夠補齊數據,達到最終的目標。這類分類數據可以在主數據后續使用過程中添加,而不一定要在主數據模型定義之初就進行定義。
3.5.3 主數據分類的注意事項
主數據分類屬性的確定工作中可能會出現一些問題,我們最關心的還是分類屬性錯誤和錯誤使用分類屬性的問題,以下為具體場景。
第一,有人總是認為數據應當只有一種分類屬性,甚至認為應將各種因素放到這一個分類屬性中去。就如我們上面所說,對于同一個主數據而言,添加的每一個枚舉屬性、參照屬性,以及其他主數據屬性都可以算作分類,只不過我們沒有正式將其稱為主數據分類。
第二,分類的本質是以某一種視角對當前數據進行劃分的方法。比如,一個筐子里有一百個蘿卜,如果按照體積分,可以分成大、中、小三類;如果按照顏色分,可以分成白色、紅色、青色三類;如果按照品種分,可以分成白蘿卜、心里美和小水蘿卜三類。所以說分類可以有很多種,每個使用人的需求不同,其使用的分類方法也不同。所以在對一種主數據進行分類時,我們通常先按照數據的自然屬性進行分類,因為這樣的分類比較穩定,不會有大的變化。如果我們發現了一個新的視角,需要按照新視角進行重新劃分,則應再引入一個新的分類屬性。
第三,在主數據設計之初,了解到的、考慮到的屬性都可以放進來,但是沒有必要追求“全”。即使是專家也不可能把“未來”都考慮清楚,所以我們沒有必要為不夠“全”而感到焦慮。
第四,避免在一個分類屬性中包含多種分類方法和視角。比如,第一層按照材料劃分,第二層按照業務線劃分,而第三層按照品類劃分。采用這樣的分類方法是由于分類人員沒有理解分類的本質,致使分類混亂和錯誤。這種情況尤其易出現在產品分類和物料分類的時候。這樣的劃分只能讓使用者感到不便,讓分類人員和數據錄入人員感到困惑并造成后續的數據分類歸集錯誤。對于這樣的錯誤,需要在設計分類屬性時避免。
第五,進行復雜分類時需要制定相關的說明并進行舉例,因為在很多復雜場景中,需要細化的標準。比如,對家具的分類中有一個材質屬性,這個分類中有一項是金屬家具,那么什么樣的家具可以歸類為金屬家具呢?是有四條腿且是金屬的就歸類為金屬家具嗎?還是整個桌面是金屬的就歸類為金屬家具?所以在具體的規范中一定要有所說明,讓操作人員能夠按照說明無二意地進行數據記錄。
第六,數據的分類必須保證對目標內的所有實例采取單一視角,做到全部覆蓋、不交叉和無二意。