當前,人工智能、機器學習、商業智能、區塊鏈等新興技術飛速發展,極具吸引力。所有這些新技術都依賴于高質量數據,也就是它們只有在可靠的數據基礎上才能發揮作用。若它們在錯誤的數據基礎上運行,根本就不會起作用。計算機科學與信息通信技術領域有GIGO(Garbage In Garbage Out)原則,它是指如果將錯誤的、無意義的垃圾數據輸入計算機系統,計算機系統也一定會輸出錯誤的、無意義的垃圾結果。因此,新興技術需要以高質量數據作為基礎,而數據質量往往被忽視。
普拉桑特·蘇特卡爾(Prashanth Southekal)博士的這本書聚焦數據質量,探討了關鍵領域中數據管理和數據治理的最佳實踐,內容十分全面。數據質量的先驅拉里·英格利什(Larry English)一定會為蘇特卡爾博士所做的工作感到自豪。因為蘇特卡爾博士澆灌了他在許多年前播下的數據質量概念的種子,這些種子已經在一片郁郁蔥蔥、翠綠欲滴之地茁壯成長。
我從這本書中受益匪淺。這本書有如下亮點:
? 數據定義——數據是什么,以及它為什么在業務中很重要。
? 數據血緣——許多作者忽略了這個主題。
? 數據記錄系統——大多數作者都忽略的一個重要概念。
? 認識數據量在決策中發揮的重要作用。
? 數據治理——什么是數據治理以及如何進行數據治理。
? 數據保護和數據安全對于任何現代組織來說都是必不可少的。
? 數據倫理——大多數作者都沒有涉及這個主題。
? 數據所有權和管理責任。
如果你要構建依賴于數據的系統,或者有更加宏大的目標,那么通過閱讀此書,你將打下堅實的基礎。
“數據倉庫之父”比爾·恩門(Bill Inmon)