官术网_书友最值得收藏!

3.1.2 數據清洗

數據清洗也稱為數據清理或數據洗滌,是為了提高數據質量而將數據中的錯誤記錄識別出來并剔除。數據清洗經常與數據倉庫、數據挖掘和數據整合聯系在一起學習。這些領域近些年在數據庫研究團體中得到了非常大的關注。當需要集成多數據源的數據時,比如在數據倉庫、聯合數據庫系統或者全球網絡信息系統中,數據清洗變得更加有意義。這是因為數據源經常以不同的形式包含著冗余的數據,且難以被察覺。為了獲取準確、一致的數據,合并不同形式的數據和消除重復數據變得非常有必要。

數據清洗根據不同的任務要求與環境特點,執行的過程也不同,根據對一般清洗工具的總結,數據清洗的一般過程可分為四個環節:

(1)分析數據特點 解決數據質量問題首先要從分析產生數據質量的原因、分析數據源特點的根本出發。這個環節的主要任務是歸納和總結數據特點,為清洗規則的制定提供依據。除了可以利用專業知識外,也可以通過人工分析或者編制數據分析程序來分析樣本數據。

(2)制定清洗規則 在對數據源特點進行歸納總結以后,結合已有的清洗算法,制定相應的清洗規則。一般來說,清洗規則主要有不一致數據的檢測和處理、空值的檢測和處理、相似或重復記錄的檢測和處理以及非法值的檢測和處理四種。

(3)執行清洗規則 數據清洗中最重要的一步就是執行清洗規則。清洗規則的執行一般有先后順序。由于數據清洗工作的領域相關性、環境依賴性特別強,很難形成統一的通用標準,且數據質量問題零散、復雜難以歸納,所以需要根據不同的問題制定不同的清洗規則。

(4)檢驗清洗效果 這是清洗工作檢閱性的一步。根據生成的清洗報告,查看數據清洗情況,發現清洗過程中存在的問題,對程序不能處理的問題進行人工處理,評估清洗效果,對不滿足清洗要求的規則和算法進行改進和優化。然后根據需要,再次進行清洗,直到滿足要求。

數據清洗是一個需要多次迭代、重復進行的處理過程,只有經過不斷的比較、完善、改進,才能得到理想的處理結果。

主站蜘蛛池模板: 观塘区| 巴南区| 珲春市| 石景山区| 望江县| 手游| 双流县| 金溪县| 宁乡县| 武定县| 西乌珠穆沁旗| 微博| 榆林市| 临朐县| 阳东县| 海南省| 牟定县| 湘乡市| 巴林右旗| 徐水县| 泸西县| 鄢陵县| 松江区| 梁河县| 宜兴市| 屏东县| 昭觉县| 措美县| 黑龙江省| 安徽省| 托克逊县| 义乌市| 青神县| 林芝县| 磴口县| 贡觉县| 光山县| 富源县| 涟水县| 海宁市| 公安县|