- 數(shù)據(jù)質(zhì)量實(shí)踐手冊(cè):4步構(gòu)建高質(zhì)量數(shù)據(jù)體系
- (美)普拉桑特·蘇特卡爾
- 2221字
- 2024-12-18 17:26:42
前言
本書(shū)定位
如今,每家公司都可以說(shuō)是數(shù)據(jù)公司,數(shù)據(jù)正在重新定義以數(shù)據(jù)分析和人工智能為核心的業(yè)務(wù)模式,它帶來(lái)了新的收入來(lái)源,降低了成本,減少了業(yè)務(wù)風(fēng)險(xiǎn)。麥肯錫的一份報(bào)告稱(chēng),數(shù)據(jù)驅(qū)動(dòng)的組織可以提供高達(dá)25%的EBITDA(利息、稅收和折舊前利潤(rùn)率)增長(zhǎng)(B?ringer等,2022)。波士頓咨詢(xún)公司在2022年進(jìn)行的一項(xiàng)研究中發(fā)現(xiàn),全球前10家創(chuàng)新公司中的9家都是數(shù)據(jù)公司(Manly等,2022)。總體而言,數(shù)據(jù)被認(rèn)為是當(dāng)今業(yè)務(wù)創(chuàng)新和生產(chǎn)力的關(guān)鍵推動(dòng)因素。
要從數(shù)據(jù)中獲得業(yè)務(wù)價(jià)值,則需要優(yōu)質(zhì)的數(shù)據(jù),但大多數(shù)行業(yè)都面臨著低劣數(shù)據(jù)質(zhì)量的問(wèn)題。《哈佛商業(yè)評(píng)論》研究發(fā)現(xiàn),在企事業(yè)單位中只有3%的數(shù)據(jù)符合質(zhì)量標(biāo)準(zhǔn)(Nagle等,2017)。研究分析機(jī)構(gòu)Gartner發(fā)現(xiàn),全球頂級(jí)公司中有27%的數(shù)據(jù)存在缺陷。為了讓組織從數(shù)據(jù)中獲得競(jìng)爭(zhēng)優(yōu)勢(shì),本書(shū)為讀者提供了實(shí)用性的指導(dǎo)和經(jīng)過(guò)驗(yàn)證的解決方案,以獲取高質(zhì)量的業(yè)務(wù)數(shù)據(jù)。雖然市場(chǎng)上有很多關(guān)于數(shù)據(jù)質(zhì)量的書(shū)籍,但本書(shū)有以下三個(gè)獨(dú)特之處:
(1)這是一本寫(xiě)給數(shù)據(jù)相關(guān)領(lǐng)域從業(yè)者的書(shū)。本書(shū)基于作者在數(shù)據(jù)、數(shù)據(jù)分析和人工智能方面的經(jīng)驗(yàn),他為80多家公司提供過(guò)咨詢(xún),其中包括通用電氣、SAP、寶潔、蘋(píng)果和殼牌等大公司。此外,書(shū)中內(nèi)容還得到了世界各地許多領(lǐng)先組織的高級(jí)數(shù)據(jù)和技術(shù)領(lǐng)導(dǎo)者的審核。
(2)這是一本符合當(dāng)前市場(chǎng)和技術(shù)發(fā)展的書(shū)。如今,公司面臨著激烈的競(jìng)爭(zhēng)、擴(kuò)大的業(yè)務(wù)網(wǎng)絡(luò)、不斷增加的監(jiān)管合規(guī)性要求,以及新興技術(shù)的挑戰(zhàn),如云計(jì)算、大數(shù)據(jù)、機(jī)器學(xué)習(xí)(ML)、人工智能(AI)、區(qū)塊鏈、物聯(lián)網(wǎng)(IoT)等。本書(shū)正是迎合了當(dāng)前在人工智能和分析場(chǎng)景中管理高質(zhì)量業(yè)務(wù)數(shù)據(jù)的需求。
(3)這是一本不限定于某種技術(shù)的書(shū)。市場(chǎng)上的許多與數(shù)據(jù)質(zhì)量相關(guān)的圖書(shū)都圍繞IT產(chǎn)品展開(kāi),而本書(shū)則著眼于技術(shù)概念,不涉及任何專(zhuān)有或特定技術(shù)。本書(shū)旨在通過(guò)數(shù)據(jù)提高業(yè)務(wù)績(jī)效。任何渴望獲得高質(zhì)量數(shù)據(jù),并利用其進(jìn)行決策支持和創(chuàng)新發(fā)展的企業(yè)領(lǐng)導(dǎo)者,都可以閱讀此書(shū)。
本書(shū)原則
1.以數(shù)據(jù)消費(fèi)者為中心
本書(shū)的目的是增加利用數(shù)據(jù)實(shí)現(xiàn)更好的業(yè)務(wù)績(jī)效的機(jī)會(huì)。在以下三種關(guān)鍵情況下,可以提高數(shù)據(jù)的業(yè)務(wù)價(jià)值:存在高質(zhì)量數(shù)據(jù);側(cè)重于數(shù)據(jù)的利用或消費(fèi);利用數(shù)據(jù)來(lái)提高和優(yōu)化業(yè)務(wù)在運(yùn)營(yíng)、合規(guī)和決策方面的能力。簡(jiǎn)而言之,本書(shū)的重點(diǎn)是獲取和管理高質(zhì)量的數(shù)據(jù),以改進(jìn)業(yè)務(wù)運(yùn)營(yíng)、合規(guī)和決策方面的能力。
2.根因分析與持續(xù)改進(jìn)
數(shù)據(jù)質(zhì)量管理不是一次性活動(dòng),而是一個(gè)持續(xù)識(shí)別并解決根本原因的改進(jìn)計(jì)劃。因?yàn)槿绻麤](méi)有找到問(wèn)題的根本原因,問(wèn)題就永遠(yuǎn)無(wú)法真正消除。因此,本書(shū)重點(diǎn)關(guān)注運(yùn)用技術(shù)來(lái)確定數(shù)據(jù)質(zhì)量問(wèn)題的根源,并討論了16個(gè)常見(jiàn)的導(dǎo)致企業(yè)數(shù)據(jù)質(zhì)量下降的根源。
3.最佳實(shí)踐的總結(jié)
本書(shū)致力于幫助企業(yè)提高數(shù)據(jù)質(zhì)量水平,并依據(jù)行業(yè)最佳實(shí)踐提供了10項(xiàng)具體的客觀建議或最佳實(shí)踐,其中包括提高企業(yè)數(shù)據(jù)質(zhì)量所需要具備的能力。此外,本書(shū)還提供了許多基于調(diào)研和案例研究的見(jiàn)解。
4.業(yè)務(wù)相關(guān)性
本書(shū)適用于在當(dāng)前業(yè)務(wù)、人工智能和分析環(huán)境中管理高質(zhì)量數(shù)據(jù)。如果缺乏高質(zhì)量數(shù)據(jù),僅基于人工智能分析產(chǎn)生的洞察是無(wú)法改善業(yè)務(wù)績(jī)效的。實(shí)際上,沒(méi)有數(shù)據(jù)就沒(méi)有人工智能,不考慮數(shù)據(jù)質(zhì)量的人工智能沒(méi)有意義。
本書(shū)結(jié)構(gòu)
那么,企業(yè)如何獲取和管理高質(zhì)量的數(shù)據(jù)呢?獲取和管理高質(zhì)量數(shù)據(jù)的方法是什么?為了回答這些問(wèn)題,本書(shū)提出一種4步構(gòu)建高質(zhì)量數(shù)據(jù)體系的DARS方法,該方法包括定義(Define)、評(píng)估(Assess)、實(shí)現(xiàn)(Realize)和持續(xù)(Sustain)。這種方法既是一種戰(zhàn)略,也是一種戰(zhàn)術(shù),旨在從數(shù)據(jù)中為企業(yè)提供最大價(jià)值。本書(shū)依據(jù)經(jīng)過(guò)驗(yàn)證的最佳實(shí)踐,提供實(shí)用的指導(dǎo)建議,幫助讀者在數(shù)據(jù)質(zhì)量管理和治理方面取得成功。
本書(shū)分為四篇,對(duì)應(yīng)4步DARS法實(shí)現(xiàn)的高質(zhì)量數(shù)據(jù)體系。第一篇為定義階段,旨在明確定義數(shù)據(jù)質(zhì)量及其特征或維度,引導(dǎo)讀者更好地理解數(shù)據(jù)和數(shù)據(jù)質(zhì)量。第二篇為評(píng)估階段,用于確定各項(xiàng)數(shù)據(jù)質(zhì)量水平并查明數(shù)據(jù)問(wèn)題產(chǎn)生的根源。第三篇為實(shí)現(xiàn)階段,即貫徹行業(yè)最佳實(shí)踐,改善整個(gè)生命周期的數(shù)據(jù)質(zhì)量。第四篇為持續(xù)階段,用于確保已實(shí)現(xiàn)的所有收益得以延續(xù)。
利用4步DARS法來(lái)改善和提高數(shù)據(jù)質(zhì)量的過(guò)程類(lèi)似于改善一個(gè)人的健康狀況。首先,需要定義健康狀態(tài),因?yàn)榻】悼梢詮纳眢w、精神、心理等多個(gè)方面來(lái)評(píng)估。其次,需要確定具體健康狀況的特征或維度,例如,在身體健康方面,這些維度可能包括力量、靈活性、耐力等。再次,需要進(jìn)行深入分析并理解問(wèn)題產(chǎn)生的根本原因,因?yàn)橥ǔ?wèn)題只是表征或癥狀。例如,身體健康狀況不佳的癥狀之一是疲勞,需要進(jìn)行分析和評(píng)估以確定根本原因,如糖化血紅蛋白(A1C)測(cè)試可能會(huì)表明導(dǎo)致疲勞感的根本原因是Ⅱ型糖尿病。因此,需要解決的問(wèn)題是治療Ⅱ型糖尿病而不僅僅是解決疲勞感。接下來(lái),需要采取不同方法的組合來(lái)解決導(dǎo)致疲勞的Ⅱ型糖尿病,如藥物、健康飲食(包括蔬菜、水果和全谷類(lèi))、冥想和定期鍛煉。最后,需要采取正確的控制措施,并定期進(jìn)行體檢,以確保采取的措施可以持續(xù)下去。
本書(shū)分為12章,按照4步DARS法逐一展開(kāi),如圖P.1所示。

圖P.1 本書(shū)組織結(jié)構(gòu)
本書(shū)讀者
本書(shū)介紹了數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)治理的核心概念,還提供了一種逐步實(shí)現(xiàn)和保持高質(zhì)量數(shù)據(jù)、提升業(yè)務(wù)績(jī)效的方法論。該方法論適用于所有對(duì)利用業(yè)務(wù)數(shù)據(jù)價(jià)值有興趣的人,包括業(yè)務(wù)團(tuán)隊(duì)和IT團(tuán)隊(duì),不需要基礎(chǔ)即可理解并應(yīng)用本書(shū)中所述的概念。本書(shū)讀者對(duì)象包括CFO(首席財(cái)務(wù)官)、CDO(首席數(shù)據(jù)官)、首席信息官、會(huì)計(jì)師、地質(zhì)學(xué)家、IT開(kāi)發(fā)人員、采購(gòu)主管、理賠分析師、數(shù)據(jù)科學(xué)家、銷(xiāo)售經(jīng)理、數(shù)據(jù)治理分析師、承保人員、人力資源經(jīng)理、其他商業(yè)或IT角色。簡(jiǎn)而言之,任何人都可以從本書(shū)中學(xué)習(xí)實(shí)現(xiàn)和保持高質(zhì)量業(yè)務(wù)數(shù)據(jù)的方法。
參考文獻(xiàn)

- 大數(shù)據(jù)技術(shù)基礎(chǔ)
- Python絕技:運(yùn)用Python成為頂級(jí)數(shù)據(jù)工程師
- Microsoft SQL Server企業(yè)級(jí)平臺(tái)管理實(shí)踐
- Python金融大數(shù)據(jù)分析(第2版)
- 數(shù)據(jù)庫(kù)開(kāi)發(fā)實(shí)踐案例
- 區(qū)塊鏈通俗讀本
- Lean Mobile App Development
- 數(shù)據(jù)庫(kù)系統(tǒng)原理及應(yīng)用教程(第4版)
- OracleDBA實(shí)戰(zhàn)攻略:運(yùn)維管理、診斷優(yōu)化、高可用與最佳實(shí)踐
- Hands-On Mathematics for Deep Learning
- SQL優(yōu)化最佳實(shí)踐:構(gòu)建高效率Oracle數(shù)據(jù)庫(kù)的方法與技巧
- PostgreSQL指南:內(nèi)幕探索
- Spark分布式處理實(shí)戰(zhàn)
- SQL Server 2012實(shí)施與管理實(shí)戰(zhàn)指南
- Expert Python Programming(Third Edition)