- 《數據管理能力成熟度評估模型》實施指南
- 中國電子信息行業聯合會編著
- 1483字
- 2024-03-22 20:06:56
1.1 數據和大數據
1.1.1 數據
數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態、相互關系等進行記載的物理符號或這些物理符號的組合。它是可識別的、抽象的符號,不僅可以是狹義上的數字,還可以是具有一定意義的文字、字母、數字組合、圖形、圖像、視頻、音頻(聲頻)等。在計算機科學中,數據是指所有能輸入計算機并被計算機程序處理的符號介質的總稱,是用于輸入電子計算機進行處理,具有一定意義的數字、字母、符號、模擬量等的通稱。計算機存儲和處理的對象十分廣泛,表示這些對象的數據也隨之變得越來越復雜。
人們對數據進行加工形成信息,對信息進行綜合提煉和總結形成知識,再通過對知識的合理應用形成智慧。DIKW體系將數據(D)、信息(I)、知識(K)、智慧(W)納入一種金字塔形的層次體系(見圖1-1)。通過DIKW體系模型分析可以看到,數據、信息、知識與智慧之間既有聯系又有區別。數據是被記錄下來可以被鑒別的符號,是原始素材,未被加工解釋,沒有回答特定的問題,沒有任何意義。信息是已經被處理、具有邏輯關系的數據,是對數據的解釋,這種信息對其接收者具有意義。知識是從相關信息中過濾、提煉及加工而得到的有用資料;特殊背景或語境下,知識將數據與信息、信息與信息在行動中的應用之間建立有意義的聯系,體現了信息的本質、原則和經驗;此外,知識基于推理和分析,還可能產生新的知識。智慧是人類所表現出來的一種獨有的能力,主要表現為收集、加工、應用、傳播知識的能力,以及對事物發展的前瞻性看法。

圖1-1 DIKW體系
由此可見,數據對人類經濟社會的發展起著重要的作用。特別是21世紀以來,隨著以互聯網、移動互聯網、物聯網等為代表的信息技術的飛速發展,數據量快速增長,數據的采集、存儲、處理和傳播的數量也與日俱增,數據變得愈加重要,已成為數字經濟的關鍵生產要素。
1.1.2 大數據
從“大數據”被首次提出開始,各界就不斷對其進行探討,但是目前仍沒有一個統一的定義。大家比較認同的觀點是國際商業機器公司(IBM公司)提出的“4V”定義,即Volume(規模性)、Velocity(高速性)、Variety(多樣性)和Veracity(真實性)。麥肯錫全球研究所對大數據的定義是,一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有數據規模大、數據流轉快、數據類型多和價值密度低四大特征。
進入21世紀以來,智能技術與設備的普及催生了大量以指數方式增長的非結構化或半結構化數據,與此同時,產生了云存儲和大數據技術,大數據時代開始到來。云存儲技術為數據的保存提供了新的思路,大數據技術則改變了傳統處理數據和利用數據的方式。例如,數據挖掘技術可從大量雜亂無章的原始數據庫中挖掘出隱藏在其中的有價值的信息或知識;大數據相關分析技術可利用相關關系挖掘出數據或信息之間的內在聯系。
舍恩伯格指出,大數據時代,應該關注數據的相關關系,所以建立在相關關系分析上的預測是大數據的核心。數據可視化技術可借助圖形的方式,使分散雜亂的數據之間的聯系清晰地展現在人們面前,讓人們從不同維度觀察數據,發現信息。如今在大數據的環境下,隨著大數據方法和技術的發展,世間萬物都可被數據化,信息、知識、數據之間的界限由清晰到模糊,逐漸邁向“同一”。“數據”的內涵因此得到進一步擴大,主要指網絡空間上的數據資源,是網絡空間上所有的信息、知識和數據的集合。
“大數據”概念是大數據時代的產物。“大數據”源于“數據”,是網絡空間上的“原始記錄”,是概念上的一種變革。這個變革不僅意味著人類認識能力的提升與數據處理能力的提高,還意味著大數據時代關系的轉變:由因果關系轉變為關聯關系,更意味著大數據管理時代的到來。