- 區塊鏈+大數據:突破瓶頸,開啟智能新時代
- 楊永強 蔡宗輝 劉雅卓
- 1587字
- 2019-11-12 14:02:16
1.2.1 優質可用數據少
隨著大數據行業的興起,數據價值得到了充分的肯定,“數據變現”也成為許多擁有大量數據資源的企業的新產業,比較成功的“數據變現”商業模式有利用數據支撐生活服務(如健康、教育等),也有利用數據分析指導營銷策略的方式。許多企業看到了數據的價值,就積攢了許多數據在手里,但是企業搜集的數據是否真的優質、是否能夠發揮作用,并沒有得到驗證。
大數據產業的核心價值在于做出趨勢預測,以網絡營銷為例(這也是大數據行業獲得最多應用的領域之一),數據驅動帶來了更精準的效果,這需要建立在優質數據的基礎上。但是由于數據采集過程不完善,企業獲得的數據往往是不夠優質的,這樣就帶來了數據清洗的問題。每次在進行數據分析之前,數據科學家都要花費大量的時間在數據清洗上,既造成了人力資源的浪費,又使得最后可用的數據不夠多。
要想充分理解大數據產業在數據質量上的窘境,就要先介紹一下數據的質量評定有些什么樣的標準,優質數據又有著什么樣的特征。數據質量指數據能夠反映實際情況的程度高低,一般通過以下五個方面進行衡量和評價,如圖1-4所示。

圖1-4 數據質量評價標準
1.準確性
準確性是指數據在系統中的值與真實值相比的符合情況,常見的數據準確性問題有數據的值與實際值不同(數據來源出現問題)、與業務規范出現沖突(行業規范不完善或執行不力導致)等問題。當數據的準確性出現問題時,數據最基本的要求就已經達不到了,自然是劣質的數據。
2.完整性
數據的完整性是指數據的完備程度,是否囊括了所需的所有方面的數據信息。常見數據完整性問題包括系統未設定提取字段導致的相關數據的缺失和采集過程不全面導致的數據不完整等問題。當發生了數據完整性問題時,數據對實際情況的描述就不夠全面,那么根據這些數據建立的數據模型就容易發生以偏概全的問題。
3.一致性
一致性是指大數據軟件系統內外部數據源之間的數據一致程度問題,包括數據形式是否一致、數據格式是否統一等。數據一致性在數據聯動的過程中非常重要,如果系統間應該相同的數據卻不一致,就容易造成系統的報錯和停止運行。
由于大數據數量龐大,且數據間的聯動是大數據產業中常見的互動,數據的一致性具有非常重要的作用。但因為大數據產業尚且缺乏統一的數據規范,不同企業間對數據的具體要求都不同,這給大數據產業帶來了相當大的處理困境。
4.及時性
及時性是指數據在采集、傳送、處理等環節對應用的快速支持能力的描述,考察的是數據的時間性能。優質的數據能夠實現在規定時間內完成系統所需數據的更新要求,而質量不夠高的數據不能滿足這一點,會給數據的后續處理帶來不良影響。
5.可用性
可用性是用來衡量數據項整合和應用的可用程度的指標,常見可用性問題包括數據缺乏可應用功能(數據不具備可加工性,不能建立數據模型)、缺乏可整合性(數據過于分散,沒有內在聯系)等。不具有可用性的數據對企業來說不僅沒有好處,反而會因為降低數據的價值密度,給企業帶來損失,因此可用性是衡量數據質量的重要因素。
在現在的大數據行業中,由于缺乏統一的大數據規范,數據的量雖然多,但是數據的質量卻不高,僅僅收集了數據,并不意味著就能夠得到戰略上的應用指導。數據的質量直接影響了大數據預測結果的可靠性,優質數據的獲取對大數據的發展至關重要。許多具有前瞻性的企業已經意識到了這一點,開始積極地進行大數據質量管理工作。但由于大數據已經深入到了各個行業,要想統一數量管理標準并非易事,所以大數據的優化還有很長的路要走。
大數據時代帶來了海量多樣的數據,使對市場進行廣泛且深入的分析成為可能,但這必須有優質數據作為支撐。優質的數據可以為大數據應用提供更高的上限,而低質量的數據則必然拉低數據產業的下限,由此可見,數據質量是大數據行業的重要標桿。而尷尬的是,由于大數據產業的興起過快,業內并沒有統一規范的數據衡量標準,因此造成了優質可用數據少的現狀,為大數據產業帶來了困境。