- 數據資產評估指南
- 中國電子技術標準化研究院編著
- 2738字
- 2022-05-06 19:12:55
1.1.2 數據的分類
數據的分類是指根據數據的屬性或特征,將其按照一定的原則和方法進行區分和歸類,并建立起一定的分類體系和排列順序,以便更好地管理使用數據的過程。
數據分類可以使組織針對不同類型的數據,有針對性地開展管理活動。例如,從安全角度,安全系統如加密、數據丟失預防、文件管理、案例信息和事件管理、郵件防御系統等,只有對數據進行有效分類,才可以識別知識產權等相關風險,如數據正在向外輸送、發往未經授權的接收人或存在異?;顒?。數據分類后,便可以對數據進行標簽化管理,使許多管理活動可以實現自動化,如加密、訪問控制和識別異常行為等。再如,從標準角度,每類數據所關注的屬性不同,在分類后可針對不同類型的數據設置不同的屬性。在標準制定過程中,可制定不同的模板,便于信息收集和屬性定義;在標準落地過程中,依據數據類型采取不同的實施策略。數據分類的目的在于建立一個企業級的數據管理制度和框架,數據分類決定數據保護的安全控制水平和數據管理水平。
1.1.2.1 數據分類原則
參考《信息安全技術 大數據安全管理指南》(GB/T 37973—2019),數據分類應滿足以下原則。
(1)科學性。按照數據的多維特征及其相互間邏輯關聯進行科學和系統的分類。
(2)穩定性。應以數據最穩定的特征和屬性為依據制定分類和分級方案。
(3)實用性。數據分類要確保每個類下有數據,不設沒有意義的類目,數據類目劃分要符合對數據分類的普遍認識。
(4)擴展性。數據分類方案在總體上應具有概括性和包容性,能夠針對組織的各種類型數據開展分類,并滿足將來可能出現的數據分類要求。
1.1.2.2 數據分類方法
在國標《信息分類和編碼的基本原則與方法》(GB/T 7027—2002)中詳細描述了數據分類的方法,可按數據主體、主題、業務等不同的屬性進行分類。
數據分類的基本方法有三種:線分類法、面分類法、混合分類法。其中,線分類法又稱為層級分類法、體系分類法;面分類法又稱為組配分類法。
線分類法是將分類對象(被劃分的事物或概念)按所選定的若干個屬性或特征逐次地分成相應的若干個層級的類目,并排成一個有層次的、逐漸展開的分類體系。在這個分類體系中,被劃分的類目稱為上位類,劃分出的類目稱為下位類,由一個類目直接劃分出來的下一級各類目,彼此稱為同位類。同位類類目之間存在并列關系,下位類與上位類類目之間存在隸屬關系。
面分類法是將所選定的分類對象的若干屬性或特征視為若干個“面”,每個“面”又可分成彼此獨立的若干個類目。使用時,可根據需要將這些“面”中的類目組合在一起,形成一個復合類目。
混合分類法是將線分類法和面分類法組合使用,以其中一種分類法為主,另一種作為補充的數據分類方法。
1.1.2.3 常見的數據分類
1.按照數據應用所屬的產業進行分類
根據最新修訂的行業分類標準《國民經濟行業分類》(GB/T 4754—2017),國民經濟行業分為四級,包括20個門類、97個大類、473個中類、1380個小類。按照數據應用所屬的產業不同分為金融業數據,制造業數據,批發和零售業數據,農、林、牧、漁業數據,衛生和社會工作數據,公共管理數據,社會保障和社會組織數據等20個門類。
2.按照數據主題進行分類
根據不同的行業,可以以行業數據和業務特征進行數據主題分類。舉例如下。
金融行業包括當事人、銀行、市場營銷、財務與風險、協議、產品與服務、事件、渠道、資產、地理區域等。
電信行業包括市場/銷售、產品、客戶、服務、資源、供應商/合作伙伴、公共業務等。
電力行業包括戰略、項目、設備與案例、電網、市場、人員與組織、財務、物資、信息、綜合等。
健康醫療包括大量基因組學數據(蛋白質組學和代謝組學)、檢驗數據、檢測數據、影像數據、臨床數據、藥物數據、醫療費用數據和智能可穿戴設備產生的數據。
餐飲物流行業包括客戶資料、港口地點、資金財務、訂單、狀態、軌跡、資源等。
教育行業包括教職工、學生、教學、教務、科研、資產財務、管理、就業、招生等。
煙草行業包括煙葉、物資、煙機零配件、成品、客戶、訂單、項目等。
3.按數據產生主體進行分類
個人數據包括個人獨有的特征數據和參與經濟活動、社會活動的行為數據。例如,個人的姓名、電話、住址、職業、學歷、偏好、習慣、旅游去過的城市、購物的交易記錄、上網瀏覽的頁面等數據。
企業數據是企業在生產經營管理活動中產生的數據,來自企業內部與外部。例如,企業在調查、研發、生產、購買原材料、收貨、交貨、收款、付費等過程中產生的數據。
政務數據包含政府部門因開展工作而產生、采集,或者因管理服務需求而采集的外部大數據,為政府自有和面向政府的數據。例如,城市建設類(交通設施、旅游景點、住宅建設)數據、城市管理類(工商、稅收、人口、機構、企業)數據、民生類(水、電、燃氣、通信、醫療)數據、自然信息類(地理、資源、氣象、環境、水利)數據等。
4.按照數據格式進行分類
結構化數據:是指通過傳統的ER模型描述,可以利用二維表存儲技術(基于行列存儲結構的關系型數據庫)進行存儲和檢索的數據。
半結構化數據:是指局部具備結構化特性、局部具備非結構化特性的數據,最典型的就是XML格式的數據。其實它由語義模型定義,也就是我們說的Schema,即每個區域和段落分別代表不同的業務含義,采用類結構化Json存儲,可以采用類SQL訪問的方式進行處理。局部具備非結構化特性的數據可以采用非結構化數據處理的方法和手段。
非結構化數據:在IT領域沒有絕對的非結構化數據,如所有格式的圖片、視頻、音頻資料,只要對應有解析器,就必須有格式定義,否則解析器無法把它蘊含的數據內容呈現出來。所以,非結構化數據本質上只是相對于結構化數據和半結構化數據而言的,是不便于基于SQL檢索和分析處理的內容,是需要通過專用技術引擎處理的數據。
5.按照數據獲得的方式進行分類
第一方數據指企業通過自身的生產經營活動直接獲得的數據,是企業擁有的一系列數據。例如,制造業企業在日常企業采購、生產、銷售和運維過程中產生的各種數據屬于該企業的第一方數據,企業對這些數據具有擁有權和控制權。通過對第一方數據的挖掘、使用與出售,可以給數據擁有者帶來經濟收益。
第二方數據指通過提供某種中介服務所獲得的數據。例如,作為第三方支付平臺的支付寶,可以通過對阿里系以外的企業提供支付通道,獲取額外交易數據和信用數據。從擁有和控制角度來看,第二方數據的所有者(如支付寶)具有對數據的控制權,但這些數據會受到獲取路徑方式的限制,在使用、交換或交易的過程中會有不同的限制條件,經脫敏處理后,如匿名化、整體化等方式,才能實現對這些數據的有效控制和使用。通過對第二方數據的挖掘、使用與出售,也可以給數據擁有者帶來經濟收益。
第三方數據指通過爬蟲技術等方式間接獲得的數據。從擁有和控制角度來看,第三方數據的產權問題比較復雜。通過網絡爬蟲獲取數據的企業或個人雖然可以使用這些數據,但是不能直接進行數據的交易或授權。