- 數(shù)據(jù)資產(chǎn)(第2版)
- 葉雅珍 朱揚(yáng)勇
- 4641字
- 2025-05-26 18:03:17
1.1 界定數(shù)據(jù)
數(shù)據(jù)通??梢员环譃殡娮訑?shù)據(jù)和非電子數(shù)據(jù)兩大類。電子數(shù)據(jù)是指網(wǎng)絡(luò)空間中存儲的數(shù)據(jù),是網(wǎng)絡(luò)空間的唯一存在;非電子數(shù)據(jù)主要是紙質(zhì)媒介中的數(shù)據(jù),例如傳統(tǒng)圖書館里面的數(shù)據(jù)。由于電子數(shù)據(jù)和非電子數(shù)據(jù)無論在規(guī)模上還是在流通方式上都存在本質(zhì)區(qū)別,加之“大數(shù)據(jù)”的含義只是指電子數(shù)據(jù),因此,本書在研究討論數(shù)據(jù)資產(chǎn)時,將數(shù)據(jù)界定在電子數(shù)據(jù)的范疇,而不考慮非電子數(shù)據(jù)。
1.1.1 名詞“數(shù)據(jù)”的解釋
“數(shù)據(jù)”一詞最早出現(xiàn)在拉丁語中,是“給予的事物”的含義,后來隨著數(shù)學(xué)和神學(xué)進(jìn)入英語語言體系[1]。隨著經(jīng)濟(jì)社會的發(fā)展和技術(shù)的進(jìn)步,出現(xiàn)了很多關(guān)于數(shù)據(jù)的不同認(rèn)識和定義。
·聯(lián)合國歐洲經(jīng)濟(jì)委員會(United Nations Economic Commission for Europe,UNECE)將數(shù)據(jù)定義為信息的實體表現(xiàn)形式,這一表現(xiàn)形式適用于人類或自動化手段交流、轉(zhuǎn)譯或處理[2]。
·美國國際空間數(shù)據(jù)系統(tǒng)咨詢委員會(Consultative Committee for Space Data System,CCSDS)給出的數(shù)據(jù)定義是以適合于交流、解釋或加工的形式化方式進(jìn)行可重新解釋的信息表示形式。比特序列、數(shù)值表、頁面中的字符、講話錄音、月球巖石標(biāo)本等都是數(shù)據(jù)[3]。
·國際數(shù)據(jù)管理協(xié)會(Data Management Association International,DAMA國際)認(rèn)為數(shù)據(jù)是以文本、數(shù)字、圖形、圖像、聲音和視頻等格式對事實進(jìn)行表現(xiàn)的形式,是信息的原始材料[4]。
·曾任國際科學(xué)理事會(International Science Council,ISC)信息和數(shù)據(jù)戰(zhàn)略協(xié)調(diào)委員會(Strategic Coordinating Committee on Information and Data,SCCID)成員的彼得·??怂梗≒eter Fox)和瑞·海瑞斯(Ray Harris)認(rèn)為數(shù)據(jù)至少包括數(shù)字觀測、科學(xué)監(jiān)控、傳感器數(shù)據(jù)、元數(shù)據(jù)、模型輸出和場景、定性或觀察的行為數(shù)據(jù)、可視化數(shù)據(jù)、出于行政或商業(yè)目的而收集的統(tǒng)計數(shù)據(jù);數(shù)據(jù)通常被視為研究過程的輸入[5]。
·2018年美國《開放、公開、電子與必要性政府?dāng)?shù)據(jù)法案》(簡稱《開放政府?dāng)?shù)據(jù)法案》)將數(shù)據(jù)定義為以任何形式或介質(zhì)被記錄下來的信息,開放政府?dāng)?shù)據(jù)時特別指明數(shù)據(jù)需要滿足機(jī)器可讀的條件。
傳統(tǒng)意義上的數(shù)據(jù)是指數(shù)值,例如溫度為26.6 ℃、長度為100 m等,IT領(lǐng)域?qū)?shù)據(jù)概念擴(kuò)大到符號、字符、日期形式(例如“Asset”“數(shù)據(jù)資產(chǎn)”“2020/07/31”等),而現(xiàn)在人們談?wù)摰臄?shù)據(jù)更是包括文本、聲音、圖形、圖像和視頻等,并且政府文件、出行記錄、住宿記錄、微博和軟件聊天記錄、網(wǎng)上購物記錄、銀行消費記錄等也都是數(shù)據(jù)。
電子數(shù)據(jù)與非電子數(shù)據(jù)在規(guī)模和處理方式上都有本質(zhì)區(qū)別,以非電子數(shù)據(jù)的主要形式——紙質(zhì)數(shù)據(jù)為例來看看二者的區(qū)別。1 PB的電子數(shù)據(jù)相當(dāng)于30個國家圖書館截至2017年的藏書總規(guī)模,而1 PB規(guī)模是大數(shù)據(jù)領(lǐng)域的一個基礎(chǔ)度量。電子數(shù)據(jù)是通過計算機(jī)處理的,而非電子數(shù)據(jù)是人通過手工或腦力直接處理的。顯然,靠一個人力去讀完30個圖書館里面的圖書是很難完成的事情,但1 PB的數(shù)據(jù)是大數(shù)據(jù)技術(shù)經(jīng)常要處理的規(guī)模。
從資產(chǎn)方面來看,圖書資產(chǎn)和流通已經(jīng)建立了完整的體系,而數(shù)據(jù)資產(chǎn)的概念剛剛被建立起來,數(shù)據(jù)資產(chǎn)的入表、流通還在探索之中,尤其是數(shù)據(jù)資產(chǎn)的計量計價尚未形成統(tǒng)一技術(shù)標(biāo)準(zhǔn)和記賬單元。
本書討論的數(shù)據(jù)為電子數(shù)據(jù)。
數(shù)據(jù)是指網(wǎng)絡(luò)空間里的所有東西,是網(wǎng)絡(luò)空間的唯一存在,即電子數(shù)據(jù)。網(wǎng)絡(luò)空間的所有數(shù)據(jù)構(gòu)成數(shù)據(jù)界[6]。
網(wǎng)絡(luò)空間是指計算機(jī)網(wǎng)絡(luò)、廣電網(wǎng)絡(luò)、通信網(wǎng)絡(luò)、物聯(lián)網(wǎng)、衛(wèi)星網(wǎng)等所有人造網(wǎng)絡(luò)和設(shè)備構(gòu)成的空間,這個空間真實存在。計算機(jī)、手機(jī)、移動硬盤等都是網(wǎng)絡(luò)空間的組成部分。現(xiàn)在,空調(diào)、冰箱、自動窗簾、電子門鎖等也已經(jīng)成為網(wǎng)絡(luò)空間的組成部分。
如果把網(wǎng)絡(luò)空間比喻成碗,那么網(wǎng)絡(luò)空間這個碗里裝的是“數(shù)據(jù)”。網(wǎng)絡(luò)空間里的任何東西都是數(shù)據(jù)。
1.1.2 數(shù)據(jù)的屬性
網(wǎng)絡(luò)空間的數(shù)據(jù)具備一些特有的屬性[6]。
(1)物理屬性
物理屬性是指數(shù)據(jù)在存儲介質(zhì)中以二進(jìn)制串的形式存在。數(shù)據(jù)的物理存在占據(jù)了存儲介質(zhì)的物理空間,是數(shù)據(jù)真實存在的表現(xiàn),并且是可度量、可處理的。數(shù)據(jù)的物理存在使數(shù)據(jù)可以直接被用于制作數(shù)據(jù)副本、進(jìn)行數(shù)據(jù)傳輸,也可以通過特殊的方法直接從物理存在勘探數(shù)據(jù)、破解數(shù)據(jù)。
(2)存在屬性
存在屬性是指數(shù)據(jù)以人類可感知(通常為可見、可聽)的形式存在。在網(wǎng)絡(luò)空間中,物理存在的數(shù)據(jù)可以通過I/O設(shè)備以某種形式(如顯示、聲音)展現(xiàn)出來,被人所感知、所認(rèn)識。人們通過I/O設(shè)備感知到的數(shù)據(jù)才能被認(rèn)為是存在的數(shù)據(jù),否則只能猜測其存在或不存在。
(3)信息屬性
一個數(shù)據(jù)是否有含義,含義是什么,這是數(shù)據(jù)的信息屬性。通常,數(shù)據(jù)通過解釋之后就會具有含義(即解釋清楚數(shù)據(jù)表示什么),數(shù)據(jù)的含義就是信息。也有一些數(shù)據(jù)是沒有含義的,例如,一個隨意打入的字符串“20 xsaff產(chǎn)7s9f9dsf7w2”就沒有含義,但它是數(shù)據(jù)。
(4)時間屬性[1]
時間是自然界中的一個基本要素,其使自然界萬物朝著一個不可逆的方向發(fā)展前進(jìn),人類以此區(qū)分過去和未來。數(shù)據(jù)界中沒有時間的概念,數(shù)據(jù)的存在沒有過去和未來。雖然數(shù)據(jù)的載體會老化,但數(shù)據(jù)不會老化,可以通過更換存放數(shù)據(jù)的載體來保證數(shù)據(jù)一直被存儲在網(wǎng)絡(luò)空間中。
圖1-1中4個列分別代表4個數(shù)據(jù)集,它們以(0,1)二進(jìn)制代碼的形式被存放在存儲設(shè)備中,占用物理存儲空間,體現(xiàn)了數(shù)據(jù)的物理屬性。這4個數(shù)據(jù)集通過I/O設(shè)備分別以表格、文字、圖等形式被看見,使人們知道存儲空間中存在著4個數(shù)據(jù)集,體現(xiàn)了數(shù)據(jù)的存在屬性。我們可以通過對這4個數(shù)據(jù)集的存在屬性進(jìn)行解讀來獲取信息,這是數(shù)據(jù)的信息屬性。解讀數(shù)據(jù)的信息屬性需要具備相應(yīng)的知識體系、技術(shù)能力,解讀出來的信息可能會不盡相同,猶如解讀甲骨文。

圖1-1 4個數(shù)據(jù)集的屬性
·第一個數(shù)據(jù)集(第一列)。其存在屬性和信息屬性是相同的,信息較容易獲取。
·第二個數(shù)據(jù)集(第二列)。其存在屬性是“銣惈佺ぜ屆嘟軻鉯bú偠孒,臥只楆誐亻門啲曖,讠上藦騩漴拝,讓兲駛發(fā)槑~”。這是一段網(wǎng)絡(luò)中曾經(jīng)流行過的“火星文”,如果不掌握“火星文”,那看上去它就是一段亂碼。事實上,這段“火星文”表達(dá)的信息是“如果全世界都可以不要了,我只要我們的愛,讓魔鬼崇拜,讓天使發(fā)呆~”,這是這個數(shù)據(jù)的信息屬性。
·第三個數(shù)據(jù)集(第三列)。其存在屬性是一個圖,看不出是什么內(nèi)容,需要通過技術(shù)進(jìn)行處理,經(jīng)過處理后讀取出的信息屬性是一頭大象。這類數(shù)據(jù)集信息的獲取需要通過技術(shù)手段,技術(shù)手段越高,獲取的信息可能就越多。
·第四個數(shù)據(jù)集(第四列)。其存在屬性是一堆無序的字符,無論是通過知識體系還是技術(shù)手段,都讀取不了任何信息,因為它是一堆亂碼,不具有任何含義,不表示任何信息。
1.1.3 數(shù)據(jù)與物質(zhì)
數(shù)據(jù)和物質(zhì)都是物理存在的,但數(shù)據(jù)的存在和物質(zhì)的存在是不同的,主要表現(xiàn)在可標(biāo)識性、可共享性和生命周期性3個方面[6]。
(1)可標(biāo)識性
自然界中的物質(zhì)都是可標(biāo)識的,所謂“相同的兩個東西”指的是同質(zhì)化的兩個東西,例如,面對兩杯水,可以說“一樣的兩杯水”;而對于數(shù)據(jù),一個數(shù)據(jù)的存在和兩個相同數(shù)據(jù)的存在是一樣的,“兩個相同的數(shù)據(jù)”的說法意義不大,“兩個相同的數(shù)據(jù)”表示自然界的一個事物,即一個數(shù)據(jù),一般采用“一個數(shù)據(jù)的兩個副本”的說法。對于數(shù)據(jù),通常討論數(shù)據(jù)的相似性,而不討論數(shù)據(jù)的相同性,相似性由相似性函數(shù)定義,可以說“兩個相似的數(shù)據(jù)”。
數(shù)據(jù)的這種特性說明數(shù)據(jù)是面向值的,即如果兩個數(shù)據(jù)對象有相同的值,則認(rèn)為它們是一個對象的兩個副本。
(2)可共享性
共享就是指共同分享,在物理世界中主要指某樣?xùn)|西被多個人分。例如“共享午餐”是指共享者一起吃午餐,其實每個共享者吃的東西并不一樣,同樣的東西是不可能被吃進(jìn)兩個人的肚子里的。
而數(shù)據(jù)共享的概念有本質(zhì)上的不同。數(shù)據(jù)共享是指同樣的數(shù)據(jù)被多個共享者使用,并且每個共享者擁有完全一樣的數(shù)據(jù),包括數(shù)據(jù)量、數(shù)據(jù)形式和數(shù)據(jù)內(nèi)容等,即擁有數(shù)據(jù)的副本。相對于數(shù)據(jù)生產(chǎn)來說,將一個數(shù)據(jù)復(fù)制任意多個副本是低成本的,因此,數(shù)據(jù)是可共享的,并且數(shù)據(jù)擁有者通常愿意將其擁有的數(shù)據(jù)拿出來共享。
數(shù)據(jù)的可共享性意味著數(shù)據(jù)的邊際成本很低,能夠利用數(shù)據(jù)副本創(chuàng)造更多的價值。但是,數(shù)據(jù)的可共享性也可能帶來負(fù)面效果,例如,因為數(shù)據(jù)副本的制作相對于數(shù)據(jù)生產(chǎn)來說非常容易,所以對數(shù)據(jù)所有權(quán)的保護(hù)就非常困難,數(shù)據(jù)的稀缺性也極易受到挑戰(zhàn)。
(3)生命周期性
自然界中的物質(zhì)會老化,有生命周期;而數(shù)據(jù)不會老化,沒有生命周期。數(shù)據(jù)從其被生產(chǎn)出來到被刪除這個過程看起來像是有生命周期的,但其實不是。根據(jù)數(shù)據(jù)的時間屬性,一個數(shù)據(jù)本身是不會隨時間的推移而變老、變舊的,例如,將一張照片存放多年以后,只要載體還存在或者不斷替換新載體,這個數(shù)據(jù)對象本身是不會發(fā)生變化的,數(shù)據(jù)不會減少,其質(zhì)量也不會下降。
數(shù)據(jù)被生產(chǎn)、存儲、修改、刪除的過程通常是一個應(yīng)用系統(tǒng)執(zhí)行的結(jié)果,也可能是現(xiàn)實中對應(yīng)該數(shù)據(jù)的事物的生命周期發(fā)生變化的數(shù)據(jù)反應(yīng),而不是數(shù)據(jù)的生命周期。這一點對于數(shù)據(jù)資產(chǎn)的折舊研究非常重要。
1.1.4 大數(shù)據(jù)
2012年的全球大數(shù)據(jù)浪潮,讓人們充分認(rèn)識到了數(shù)據(jù)的重要性。時至如今,人們已經(jīng)不再關(guān)心數(shù)據(jù)大或者不大,也不再區(qū)分大數(shù)據(jù)和數(shù)據(jù)?;仡櫼幌庐?dāng)時的情形,從事大數(shù)據(jù)相關(guān)工作的人群可以被分為3類:有大數(shù)據(jù)的人群、做大數(shù)據(jù)的人群和用大數(shù)據(jù)的人群。那時候大家談?wù)摯髷?shù)據(jù),實際上是在談?wù)摬煌臇|西,即有大數(shù)據(jù)的人在談?wù)摂?shù)據(jù)資源及其規(guī)模,做大數(shù)據(jù)的人在談?wù)摯髷?shù)據(jù)帶來的技術(shù)挑戰(zhàn),用大數(shù)據(jù)的人則在談?wù)摯髷?shù)據(jù)帶來的決策變革。
那么,大數(shù)據(jù)是數(shù)據(jù)、技術(shù)還是應(yīng)用呢?事實上,數(shù)據(jù)的價值和挖掘這些價值的時效是大數(shù)據(jù)的核心內(nèi)涵。
(1)關(guān)于價值
首先,如果一個數(shù)據(jù)集沒有價值,就不需要被關(guān)注;其次,如果一個數(shù)據(jù)集的價值密度高,即大部分?jǐn)?shù)據(jù)是有價值的,那么直接讀取數(shù)據(jù)集就能獲得價值,沒有技術(shù)難度。因此,真正的大數(shù)據(jù)是價值密度低的數(shù)據(jù)集,從數(shù)據(jù)集中獲取價值像大海撈針一樣。大數(shù)據(jù)是高難的技術(shù)挑戰(zhàn)。
(2)關(guān)于時效
首先,所有的大數(shù)據(jù)處理和分析都應(yīng)該在決策期望的時間內(nèi)做完,如果過了期望的時間,就沒有意義了,這是一個技術(shù)難題;其次,在競爭中,要比競爭對手更快地完成大數(shù)據(jù)處理和分析。
這樣來看,給定一個大數(shù)據(jù),如果沒有技術(shù)能夠在期望的時間內(nèi)挖掘出其價值,那么大數(shù)據(jù)是一個技術(shù)挑戰(zhàn),否則其就是一個大數(shù)據(jù)應(yīng)用。需要注意的是,一個大數(shù)據(jù)應(yīng)用可能會轉(zhuǎn)化成大數(shù)據(jù)的技術(shù)挑戰(zhàn)。例如,無人駕駛汽車在道路上行駛時,會獲取汽車自身的工作數(shù)據(jù)(行駛速度、油量、引擎工作狀態(tài)等)、實時路況數(shù)據(jù)(前車車速、車距、行人等)、道路管理數(shù)據(jù)(紅綠燈、限速等),并及時分析這些數(shù)據(jù)、及時作出駕駛判斷。當(dāng)汽車時速小于50 km/h時,發(fā)現(xiàn)50 m外車道上有行人后,經(jīng)過2 s的數(shù)據(jù)分析得出需要剎車的結(jié)論是可以接受的;但當(dāng)車速提高到100 km/h時,數(shù)據(jù)分析的時間就需要小于1 s。這時,大數(shù)據(jù)應(yīng)用變成了大數(shù)據(jù)技術(shù)挑戰(zhàn)。
事實上,數(shù)據(jù)、技術(shù)和應(yīng)用是大數(shù)據(jù)的3個要素,數(shù)據(jù)隱含價值,技術(shù)發(fā)現(xiàn)價值,應(yīng)用實現(xiàn)價值。大數(shù)據(jù)是為決策問題提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱。其中,大數(shù)據(jù)集是指一個決策問題用到的所有可能的數(shù)據(jù),通常數(shù)據(jù)量巨大、來源多樣、類型多樣;大數(shù)據(jù)技術(shù)是指大數(shù)據(jù)資源獲取、存儲管理、挖掘分析、可視展現(xiàn)等技術(shù);大數(shù)據(jù)應(yīng)用是指用大數(shù)據(jù)集和大數(shù)據(jù)技術(shù)來支持決策活動,是新的決策方法[7]。
大數(shù)據(jù)是否能為一個決策問題提供服務(wù),關(guān)鍵在于能否在決策希望的時間內(nèi)有效完成所有的任務(wù)。但是數(shù)據(jù)增長的速度遠(yuǎn)遠(yuǎn)大于技術(shù)進(jìn)步的速度,因此,大數(shù)據(jù)問題出現(xiàn)了。大數(shù)據(jù)問題是指不能用當(dāng)前技術(shù)在決策希望的時間內(nèi)處理分析的數(shù)據(jù)資源開發(fā)利用問題。大數(shù)據(jù)問題的關(guān)鍵技術(shù)挑戰(zhàn)在于找到隱含在低價值密度數(shù)據(jù)資源中的價值,在期望的時間內(nèi)完成所有的任務(wù)[8]。
“能否在決策期望的時間內(nèi)有效完成所有的任務(wù)”可能是數(shù)據(jù)領(lǐng)域存在的持續(xù)性問題。盡管現(xiàn)在人們更喜歡用名詞“數(shù)據(jù)”而不是“大數(shù)據(jù)”,但是問題沒有變化,是一樣的。
[1]這點是數(shù)據(jù)資產(chǎn)折舊問題的關(guān)鍵因素,將在第6~7章討論。
- .NET Core 2.0 應(yīng)用程序高級調(diào)試:完全掌握Linux、macOS和Windows跨平臺調(diào)試技術(shù)
- Learn pfSense 2.4
- 軟件開發(fā)視頻大講堂:ASP.NET從入門到精通(第4版)
- IP語音通信原理、設(shè)計及組網(wǎng)應(yīng)用
- 計算機(jī)網(wǎng)絡(luò)技術(shù)基礎(chǔ)(第2版)
- 監(jiān)控平臺解密:IT系統(tǒng)風(fēng)險感知和洞察
- Instant Edublogs
- Cisco Unified Communications Manager 8:Expert Administration Cookbook
- 軟件定義網(wǎng)絡(luò)核心原理與應(yīng)用實踐
- 信息安全防御技術(shù)與實施
- 網(wǎng)站說服力
- NS2仿真實驗
- 下一代通信原理
- 劍指云端:引領(lǐng)企業(yè)IT未來的最佳實踐
- ASP.NET Core與RESTful API 開發(fā)實戰(zhàn)