- 中國戰略性新興產業研究與發展·智慧工業
- 王時龍等編著
- 797字
- 2022-06-17 16:50:16
3.1.2 數據清洗
數據清洗也稱為數據清理或數據洗滌,是為了提高數據質量而將數據中的錯誤記錄識別出來并剔除。數據清洗經常與數據倉庫、數據挖掘和數據整合聯系在一起學習。這些領域近些年在數據庫研究團體中得到了非常大的關注。當需要集成多數據源的數據時,比如在數據倉庫、聯合數據庫系統或者全球網絡信息系統中,數據清洗變得更加有意義。這是因為數據源經常以不同的形式包含著冗余的數據,且難以被察覺。為了獲取準確、一致的數據,合并不同形式的數據和消除重復數據變得非常有必要。
數據清洗根據不同的任務要求與環境特點,執行的過程也不同,根據對一般清洗工具的總結,數據清洗的一般過程可分為四個環節:
(1)分析數據特點 解決數據質量問題首先要從分析產生數據質量的原因、分析數據源特點的根本出發。這個環節的主要任務是歸納和總結數據特點,為清洗規則的制定提供依據。除了可以利用專業知識外,也可以通過人工分析或者編制數據分析程序來分析樣本數據。
(2)制定清洗規則 在對數據源特點進行歸納總結以后,結合已有的清洗算法,制定相應的清洗規則。一般來說,清洗規則主要有不一致數據的檢測和處理、空值的檢測和處理、相似或重復記錄的檢測和處理以及非法值的檢測和處理四種。
(3)執行清洗規則 數據清洗中最重要的一步就是執行清洗規則。清洗規則的執行一般有先后順序。由于數據清洗工作的領域相關性、環境依賴性特別強,很難形成統一的通用標準,且數據質量問題零散、復雜難以歸納,所以需要根據不同的問題制定不同的清洗規則。
(4)檢驗清洗效果 這是清洗工作檢閱性的一步。根據生成的清洗報告,查看數據清洗情況,發現清洗過程中存在的問題,對程序不能處理的問題進行人工處理,評估清洗效果,對不滿足清洗要求的規則和算法進行改進和優化。然后根據需要,再次進行清洗,直到滿足要求。
數據清洗是一個需要多次迭代、重復進行的處理過程,只有經過不斷的比較、完善、改進,才能得到理想的處理結果。