- 大數(shù)據(jù)管理與應(yīng)用
- 王剛主編
- 6621字
- 2024-05-14 10:09:52
第二節(jié) 數(shù)據(jù)和大數(shù)據(jù)
一、數(shù)據(jù)
(一)數(shù)據(jù)的概念
“數(shù)據(jù)科學(xué)”這門學(xué)科研究的核心內(nèi)容就是數(shù)據(jù),那究竟什么是數(shù)據(jù)呢?一提到數(shù)據(jù),我們首先想到的會(huì)是數(shù)字。但數(shù)據(jù)并不局限于數(shù)字,文本、音頻、圖像、視頻都可以是數(shù)據(jù)。在這本書里,我們對(duì)數(shù)據(jù)進(jìn)行如下的定義:
數(shù)據(jù)是指以定性或者定量的方式來(lái)描述事物的符號(hào)記錄,是可定義為有意義的實(shí)體,它涉及事物的存在形式。數(shù)據(jù)的含義很廣,不僅指1011、8084這樣一些傳統(tǒng)意義上的數(shù)據(jù),還指“dataology”“上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室”“2020/02/14”等符號(hào)、字符、日期形式的數(shù)據(jù),也包括文本、聲音、圖像、照片和視頻等類型的數(shù)據(jù),而微博、微信、購(gòu)物記錄、住宿記錄、乘飛機(jī)記錄、銀行消費(fèi)記錄、政府文件等也都是數(shù)據(jù)。
在這里,我們需要注意的是數(shù)據(jù)與信息、知識(shí)等概念之間存在一定的區(qū)別和聯(lián)系。這三者之間最主要的區(qū)別是所考慮的抽象層次不同。數(shù)據(jù)是最低層次的抽象,信息次之,知識(shí)則是最高層次的抽象。數(shù)據(jù)是用來(lái)記錄客觀事物狀態(tài)的原始符號(hào);信息是經(jīng)過(guò)解釋和理解,能夠消除人們某種不確定性的東西;而知識(shí)則是可指導(dǎo)行動(dòng)的信息。
我們對(duì)數(shù)據(jù)進(jìn)行解釋和理解之后,才可以從數(shù)據(jù)中提取出有用的信息。對(duì)信息進(jìn)行整合和呈現(xiàn),則能夠獲得知識(shí)。例如,世界第一高峰珠穆朗瑪峰的高度8848.86m,可以認(rèn)為是“數(shù)據(jù)”;一本關(guān)于珠穆朗瑪峰地質(zhì)特性的書籍,則是“信息”;而一份包含了攀上珠穆朗瑪峰最佳路徑信息的報(bào)告,就是“知識(shí)”了。所以,我們說(shuō)數(shù)據(jù)是信息的載體,是形成知識(shí)的源泉,是智慧、決策以及價(jià)值創(chuàng)造的基石。
近年來(lái),數(shù)據(jù)規(guī)模與利用率之間的矛盾日益凸顯。一方面,數(shù)據(jù)規(guī)模的“存量”和“增量”在快速增長(zhǎng)。根據(jù)國(guó)際權(quán)威機(jī)構(gòu)Statista的統(tǒng)計(jì)和預(yù)測(cè),全球數(shù)據(jù)量在2019年約達(dá)到41ZB,預(yù)計(jì)到2025年,全球數(shù)據(jù)量將是2016年的16.1ZB的十倍,達(dá)到163ZB。在人們的生活與生產(chǎn)中,正在生成、捕獲和積累著海量數(shù)據(jù)。例如,紐約證券交易所(NYSE)每天生成4~5TB的數(shù)據(jù);Illumina的HiSeq2000測(cè)序儀(Illumina HiSeq 2000 Sequencer)每天可以產(chǎn)生1TB的數(shù)據(jù);大型實(shí)驗(yàn)室擁有幾十臺(tái)類似LSST望遠(yuǎn)鏡(Large Synoptic Survey Telescope)的機(jī)器,每天可以生成40TB的數(shù)據(jù);Facebook每個(gè)月數(shù)據(jù)增長(zhǎng)達(dá)到7PB;瑞士日內(nèi)瓦附近的大型強(qiáng)子對(duì)撞機(jī)(Large Hadron Collider)每年產(chǎn)生約30PB的數(shù)據(jù);Internet Archive項(xiàng)目已存儲(chǔ)了大約18.5PB的數(shù)據(jù)等。
另一方面,我們?nèi)狈?duì)“大數(shù)據(jù)”的開(kāi)發(fā)利用能力。雖然我們經(jīng)常提到或聽(tīng)到“數(shù)據(jù)是一種重要資源”,但我們并不深入了解數(shù)據(jù),尤其是大數(shù)據(jù)的本質(zhì)及其演化規(guī)律,更沒(méi)有具備將數(shù)據(jù)資源轉(zhuǎn)換為業(yè)務(wù)、決策和核心競(jìng)爭(zhēng)力的能力。因此,我們急需包括理念、理論、方法、技術(shù)、工具、應(yīng)用在內(nèi)的一整套科學(xué)知識(shí)體系——大數(shù)據(jù)管理與應(yīng)用。
(二)數(shù)據(jù)模型
數(shù)據(jù)建模是人們理解數(shù)據(jù)的重要途徑之一。按照應(yīng)用層次和建模目的,可以把數(shù)據(jù)模型分為三種基本類型:概念數(shù)據(jù)模型﹑邏輯數(shù)據(jù)模型和物理數(shù)據(jù)模型。因此,在實(shí)際工作中,需要注意數(shù)據(jù)模型的層次性,不同類型的人員所說(shuō)的數(shù)據(jù)模型可能不在同一個(gè)層次之上。當(dāng)然,不同層次的數(shù)據(jù)模型之間也存在一定的對(duì)應(yīng)關(guān)系,可以進(jìn)行相互轉(zhuǎn)換,如圖1-1所示。
概念數(shù)據(jù)模型(Conceptual Data Model)是以現(xiàn)實(shí)世界為基礎(chǔ),從普通用戶(如業(yè)務(wù)員﹑決策人員)的視角對(duì)數(shù)據(jù)構(gòu)建的模型,主要用來(lái)描述世界的概念化結(jié)構(gòu),與具體的數(shù)據(jù)管理技術(shù)無(wú)關(guān),即同一個(gè)概念數(shù)據(jù)模型可以轉(zhuǎn)換為不同的邏輯數(shù)據(jù)模型。常用概念數(shù)據(jù)模型有:ER圖(Entity Relationship Diagram),面向?qū)ο竽P秃椭^詞模型等。
邏輯數(shù)據(jù)模型(Logical Data Model)是在概念數(shù)據(jù)模型的基礎(chǔ)上,從數(shù)據(jù)科學(xué)家視角對(duì)數(shù)據(jù)進(jìn)一步抽象的模型,主要用于數(shù)據(jù)科學(xué)家之間的溝通和數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師之間的溝通。常用的邏輯模型有:關(guān)系模型、層次模型、網(wǎng)狀模型、key-value、key-document、key-column和圖模型等。

圖1-1 數(shù)據(jù)模型的層次
物理數(shù)據(jù)模型(Physical Data Model)是在邏輯數(shù)據(jù)模型的基礎(chǔ)上,從計(jì)算機(jī)視角對(duì)數(shù)據(jù)進(jìn)行建模后得出的模型﹐主要用于描述數(shù)據(jù)在存儲(chǔ)介質(zhì)上的組織結(jié)構(gòu),與具體的平臺(tái)(包括軟硬件)直接相關(guān)。常用的物理模型有:索引、分區(qū)、復(fù)制、分片、物化視圖、事務(wù)、版本戳等。
通常,數(shù)據(jù)科學(xué)中數(shù)據(jù)的捕獲、存儲(chǔ)、傳遞、計(jì)算、顯示處理的難點(diǎn)源自“數(shù)據(jù)的異構(gòu)性”——涉及多種數(shù)據(jù)模型或同一類模型的不同結(jié)構(gòu)。為此,數(shù)據(jù)科學(xué)家經(jīng)常采用跨平臺(tái)(應(yīng)用)性較強(qiáng)的通用數(shù)據(jù)格式,即用與特定應(yīng)用程序(及其開(kāi)發(fā)語(yǔ)言)無(wú)關(guān)的數(shù)據(jù)格式的方法來(lái)實(shí)現(xiàn)在不同應(yīng)用程序之間進(jìn)行數(shù)據(jù)傳遞和數(shù)據(jù)共享。常見(jiàn)的通用數(shù)據(jù)格式有:關(guān)系(二維表/矩陣)、CSV(Comma Separated Value)、JSON(JavaScript Object Notation)、XML(Extensible Markup Language)、RDF(Resource Description Framework)和OWL(Web Ontology Language)等。
(三)數(shù)據(jù)維度
數(shù)據(jù)分類是幫助人們理解數(shù)據(jù)的另一個(gè)重要途徑。為了深入理解數(shù)據(jù)的常用分類方法,我們可以從三個(gè)不同維度分析數(shù)據(jù)類型及其特征。
從數(shù)據(jù)的結(jié)構(gòu)化程度看,可以分為:結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),如表1-1所示。在數(shù)據(jù)科學(xué)中,數(shù)據(jù)的結(jié)構(gòu)化程度對(duì)于數(shù)據(jù)處理方法的選擇具有重要影響。例如,結(jié)構(gòu)化數(shù)據(jù)的管理可以采用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)技術(shù),而非結(jié)構(gòu)化數(shù)據(jù)的管理往往采用NoSQL、NewSQL或關(guān)系云技術(shù)。
表1-1 結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)

結(jié)構(gòu)化數(shù)據(jù):以“先有結(jié)構(gòu),后有數(shù)據(jù)”的方式生成的數(shù)據(jù)。通常,人們所說(shuō)的“結(jié)構(gòu)化數(shù)據(jù)”主要指的是在傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中捕獲、存儲(chǔ)、計(jì)算和管理的數(shù)據(jù)。在關(guān)系數(shù)據(jù)庫(kù)中,需要先定義數(shù)據(jù)結(jié)構(gòu)(如表結(jié)構(gòu)、字段的定義、完整性約束條件等),然后嚴(yán)格按照預(yù)定義的結(jié)構(gòu)進(jìn)行捕獲、存儲(chǔ)、計(jì)算和管理數(shù)據(jù)。當(dāng)數(shù)據(jù)與數(shù)據(jù)結(jié)構(gòu)不一致時(shí),需要按照數(shù)據(jù)結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理。
非結(jié)構(gòu)化數(shù)據(jù):沒(méi)有(或難以發(fā)現(xiàn))統(tǒng)一結(jié)構(gòu)的數(shù)據(jù),即在未定義結(jié)構(gòu)的情況下或并不按照預(yù)定義的結(jié)構(gòu)捕獲、存儲(chǔ)、計(jì)算和管理的數(shù)據(jù)。通常主要指無(wú)法在傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中直接存儲(chǔ)、管理和處理的數(shù)據(jù),包括所有格式的辦公文檔、文本、圖片、圖像和音頻、視頻信息。
半結(jié)構(gòu)化數(shù)據(jù):介于結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)中的數(shù)據(jù))和非結(jié)構(gòu)化數(shù)據(jù)(如語(yǔ)音、圖像文件等)之間的數(shù)據(jù)。例如,HTML、XML,其數(shù)據(jù)的結(jié)構(gòu)與內(nèi)容耦合度高,需要進(jìn)行轉(zhuǎn)換處理后才可發(fā)現(xiàn)其結(jié)構(gòu)。目前,非結(jié)構(gòu)化數(shù)據(jù)占比最大,絕大部分?jǐn)?shù)據(jù)或數(shù)據(jù)中的絕大部分屬于非結(jié)構(gòu)化數(shù)據(jù)。因此,非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)科學(xué)中重要研究對(duì)象之一,也是當(dāng)下的數(shù)據(jù)管理區(qū)別于傳統(tǒng)數(shù)據(jù)管理的主要區(qū)別之一。
從數(shù)據(jù)的加工程度看,可以分為:零次數(shù)據(jù)、一次數(shù)據(jù)、二次數(shù)據(jù)和三次數(shù)據(jù),如圖1-2所示。數(shù)據(jù)的加工程度對(duì)數(shù)據(jù)科學(xué)中的流程設(shè)計(jì)和活動(dòng)選擇具有重要影響。例如,數(shù)據(jù)科學(xué)項(xiàng)目可以根據(jù)數(shù)據(jù)的加工程度來(lái)判斷是否需要進(jìn)行數(shù)據(jù)預(yù)處理。

圖1-2 數(shù)據(jù)的加工程度
零次數(shù)據(jù):數(shù)據(jù)的原始內(nèi)容及其備份數(shù)據(jù)。零次數(shù)據(jù)中往往存在缺失值、噪聲、錯(cuò)誤或虛假數(shù)據(jù)等質(zhì)量問(wèn)題。
一次數(shù)據(jù):對(duì)零次數(shù)據(jù)進(jìn)行初步預(yù)處理(包括清洗、變換、集成等)后得到的“干凈數(shù)據(jù)”。
二次數(shù)據(jù):對(duì)一次數(shù)據(jù)進(jìn)行深度處理或分析(包括脫敏﹑規(guī)約、標(biāo)注)后得到的“增值數(shù)據(jù)”。
三次數(shù)據(jù):對(duì)一次或二次數(shù)據(jù)進(jìn)行洞察分析(包括統(tǒng)計(jì)分析﹑數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)可視化分析等)后得到的,可以直接用于決策支持的“洞見(jiàn)數(shù)據(jù)”。
從數(shù)據(jù)的抽象或封裝程度看,可分為:數(shù)據(jù)、元數(shù)據(jù)和數(shù)據(jù)對(duì)象三個(gè)層次,如圖1-3所示。在數(shù)據(jù)科學(xué)中,數(shù)據(jù)的抽象或封裝程度對(duì)于數(shù)據(jù)處理方法的選擇具有重要影響。例如,是否需要重新定義數(shù)據(jù)對(duì)象(類型)或?qū)⒁延袛?shù)據(jù)封裝成數(shù)據(jù)對(duì)象。

圖1-3 數(shù)據(jù)的封裝
數(shù)據(jù):對(duì)客觀事物或現(xiàn)象直接記錄下來(lái)后產(chǎn)生的數(shù)據(jù),例如介紹數(shù)據(jù)科學(xué)知識(shí)的教材《數(shù)據(jù)科學(xué)》的內(nèi)容。
元數(shù)據(jù):數(shù)據(jù)的數(shù)據(jù),可以是數(shù)據(jù)內(nèi)容的描述信息等。教材《大數(shù)據(jù)管理與應(yīng)用》的元數(shù)據(jù)有作者、出版社、出版地、出版年、頁(yè)數(shù)、印數(shù)、字?jǐn)?shù)等。通常,元數(shù)據(jù)可以分為5大類:管理、描述、保存、技術(shù)和應(yīng)用類元數(shù)據(jù)。
數(shù)據(jù)對(duì)象:對(duì)數(shù)據(jù)內(nèi)容與其元數(shù)據(jù)進(jìn)行封裝或關(guān)聯(lián)后得到的更高層次的數(shù)據(jù)集。例如,可以把教材《大數(shù)據(jù)管理與應(yīng)用》的內(nèi)容、元數(shù)據(jù)、參考資料、與相關(guān)課程的關(guān)聯(lián)數(shù)據(jù)以及課程相關(guān)的行為封裝成一個(gè)數(shù)據(jù)對(duì)象。
(四)數(shù)據(jù)特征
人類社會(huì)的進(jìn)步發(fā)展是人類不斷探索自然(宇宙和生命)的過(guò)程,當(dāng)人們將探索自然界的成果存儲(chǔ)在網(wǎng)絡(luò)空間中的時(shí)候,卻不知不覺(jué)地在網(wǎng)絡(luò)空間中創(chuàng)造了一個(gè)數(shù)據(jù)界。雖然是人生產(chǎn)了數(shù)據(jù),并且人還在不斷生產(chǎn)數(shù)據(jù),但當(dāng)前的數(shù)據(jù)已經(jīng)表現(xiàn)出不為人控制、未知性、多樣性和復(fù)雜性等自然界特征。
首先,數(shù)據(jù)不為人類所控制。數(shù)據(jù)出現(xiàn)爆炸式增長(zhǎng),人類很難加以控制,此外無(wú)法控制的還有計(jì)算機(jī)病毒的大量出現(xiàn)和傳播、垃圾郵件的泛濫、網(wǎng)絡(luò)的攻擊、數(shù)據(jù)阻塞信息高速公路等。人們?cè)诓粩嗌a(chǎn)數(shù)據(jù),不但使用計(jì)算機(jī)產(chǎn)生數(shù)據(jù),而且使用各種電子設(shè)備生產(chǎn)數(shù)據(jù),例如照相、拍電影、出版報(bào)紙等都已經(jīng)數(shù)字化了,這些工作都在生產(chǎn)數(shù)據(jù);拍X線片、做CT檢查、做各種檢驗(yàn)等也都在生產(chǎn)數(shù)據(jù);人們出行坐車、上班考勤、購(gòu)物刷卡等也都在生產(chǎn)數(shù)據(jù)。不僅如此,像計(jì)算機(jī)病毒這類數(shù)據(jù)還能不斷快速大規(guī)模地產(chǎn)生新數(shù)據(jù)。這種大規(guī)模的隨時(shí)隨地生產(chǎn)數(shù)據(jù)的情形是任何政府和組織所不能控制的。雖然從個(gè)體上來(lái)看,其生產(chǎn)數(shù)據(jù)是有目的的、可以控制的,但是總體上來(lái)看,數(shù)據(jù)的生產(chǎn)是不以人的意志為轉(zhuǎn)移的,是以自然的方式增長(zhǎng)的。因此,數(shù)據(jù)增長(zhǎng)、流動(dòng)已經(jīng)不為人類所控制。
其次,數(shù)據(jù)具有未知性。在網(wǎng)絡(luò)空間中出現(xiàn)大量未知的數(shù)據(jù)、未知的數(shù)據(jù)現(xiàn)象和規(guī)律,這是數(shù)據(jù)科學(xué)出現(xiàn)的原因。未知性包括:不知道從互聯(lián)網(wǎng)上獲得的數(shù)據(jù)是不是正確的和真實(shí)的;在兩個(gè)網(wǎng)站對(duì)相同的目標(biāo)進(jìn)行搜索訪問(wèn)時(shí)得到的結(jié)果可能不一樣,不知道哪個(gè)是正確的;也許網(wǎng)絡(luò)空間中某個(gè)數(shù)據(jù)庫(kù)早就顯示人類將面臨能源危機(jī),我們卻無(wú)法得到這樣的知識(shí);我們還不知道數(shù)據(jù)界有多大,數(shù)據(jù)界以什么樣的速率在增長(zhǎng)?
早期使用計(jì)算機(jī)是將已知的事情交給計(jì)算機(jī)去完成,將已知的數(shù)據(jù)存儲(chǔ)到計(jì)算機(jī)中,將已知的算法寫成計(jì)算機(jī)程序。數(shù)據(jù)、程序和程序執(zhí)行的結(jié)果都是已知的或可預(yù)期的。事實(shí)上,這期間計(jì)算機(jī)主要用于幫助人們工作、生活,提高人們的工作效率和生活質(zhì)量。因此,計(jì)算機(jī)所做的事情和生產(chǎn)的數(shù)據(jù)都是清楚的。
隨著設(shè)備和儀器的數(shù)字化進(jìn)程,各種設(shè)備都在生產(chǎn)數(shù)據(jù),于是大量人們并不清楚的數(shù)據(jù)被生產(chǎn)出來(lái)并存入網(wǎng)絡(luò)空間。例如:自從人類基因組計(jì)劃(Human Genome Project,HGP)開(kāi)始后,巨量的DNA數(shù)據(jù)被存儲(chǔ)到網(wǎng)絡(luò)空間中,這些數(shù)據(jù)是通過(guò)DNA測(cè)序儀器檢測(cè)出來(lái)的,是各種生命的DNA序列數(shù)據(jù)。雖然將DNA序列存入網(wǎng)絡(luò)空間,但在存入網(wǎng)絡(luò)空間時(shí)并不了解DNA序列數(shù)據(jù)表達(dá)了什么?有什么規(guī)律?是什么基因片段使得人之間相同或不同?物種進(jìn)化的基因如何變化?是否有進(jìn)化或突變……
雖然每個(gè)人是將個(gè)人已知的事物和事情存儲(chǔ)到網(wǎng)絡(luò)空間中,但是當(dāng)一個(gè)組織、一個(gè)城市或一個(gè)國(guó)家的公民都將他個(gè)人工作、生活的事物和事情存儲(chǔ)到網(wǎng)絡(luò)空間中時(shí),數(shù)據(jù)就將反映這個(gè)組織﹑城市或國(guó)家整體的狀況,包括國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的各種規(guī)律和問(wèn)題。這些由各種數(shù)據(jù)的綜合所反映出的社會(huì)經(jīng)濟(jì)規(guī)律是人類事先不知道的,即信息化工作將社會(huì)經(jīng)濟(jì)規(guī)律這些未知的東西也存儲(chǔ)到了網(wǎng)絡(luò)空間中。
網(wǎng)絡(luò)空間自有非現(xiàn)實(shí)數(shù)據(jù)更是未知的。例如,電子游戲創(chuàng)造了一個(gè)全新的活動(dòng)區(qū)域,這個(gè)區(qū)域的所有場(chǎng)景、角色都是虛擬的。這些虛擬區(qū)域的事物又通過(guò)游戲玩家與現(xiàn)實(shí)世界聯(lián)系在一起。因此,游戲世界表現(xiàn)和內(nèi)在的東西在現(xiàn)實(shí)世界中沒(méi)有,是未知的。
最后,數(shù)據(jù)具有多樣性和復(fù)雜性。隨著技術(shù)的進(jìn)步,存儲(chǔ)到網(wǎng)絡(luò)空間中的數(shù)據(jù)的類別和形式也越來(lái)越多。所謂數(shù)據(jù)的多樣性是指數(shù)據(jù)有各種類別,如各種語(yǔ)言的、各種行業(yè)的,也有在互聯(lián)網(wǎng)中或不在互聯(lián)網(wǎng)中的、公開(kāi)或非公開(kāi)的、企業(yè)的、政府的數(shù)據(jù)等。數(shù)據(jù)的復(fù)雜性有兩個(gè)方面:一是指數(shù)據(jù)具有各種各樣的格式,包括各種專用格式和通用格式;二是指數(shù)據(jù)之間存在著復(fù)雜的關(guān)聯(lián)。
二、大數(shù)據(jù)
(一)大數(shù)據(jù)概念
權(quán)威研究機(jī)構(gòu)Gartner對(duì)大數(shù)據(jù)給出了這樣的定義:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在這個(gè)定義里,主要強(qiáng)調(diào)的是大數(shù)據(jù)的出現(xiàn)所帶來(lái)的挑戰(zhàn)和機(jī)遇,即數(shù)據(jù)處理的難度加大了,而從中所能獲取的價(jià)值也增加了。
同樣地,維基百科也給出了一個(gè)大數(shù)據(jù)的定義:“大數(shù)據(jù),或稱巨量資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工在合理時(shí)間內(nèi)截取、管理、處理,并整理成為人類所能解讀的信息。”可見(jiàn),維基百科的定義更加強(qiáng)調(diào)大數(shù)據(jù)的數(shù)據(jù)規(guī)模之龐大。
IBM用四個(gè)特征來(lái)描述大數(shù)據(jù),即規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)和真實(shí)性(Veracity),這些特征相結(jié)合,定義了IBM所稱的“大數(shù)據(jù)”。這個(gè)定義顯然也是把大數(shù)據(jù)定義為一種數(shù)據(jù)集合,而且集合中的數(shù)據(jù)具有規(guī)模性、高速性、多樣性和真實(shí)性。所以,大數(shù)據(jù)研究所關(guān)心的應(yīng)該是對(duì)結(jié)構(gòu)多樣性的大數(shù)據(jù)能夠進(jìn)行高速存儲(chǔ)和高速處理的技術(shù)。
從管理的角度看大數(shù)據(jù),大數(shù)據(jù)是一類能夠反映物質(zhì)世界和精神世界的運(yùn)動(dòng)狀態(tài)和狀態(tài)變化的信息資源,它具有決策有用性、安全危害性以及海量性、異構(gòu)性、增長(zhǎng)性、復(fù)雜性和可重復(fù)開(kāi)采性,一般都具有多種潛在價(jià)值。這個(gè)定義把大數(shù)據(jù)看作一類資源,它具有決策有用性,對(duì)經(jīng)濟(jì)社會(huì)發(fā)展具有重要的潛在價(jià)值。按照大數(shù)據(jù)的資源觀,大數(shù)據(jù)研究的關(guān)鍵科學(xué)問(wèn)題應(yīng)該包括大數(shù)據(jù)的獲取方法、加工技術(shù)、應(yīng)用模式以及大數(shù)據(jù)的產(chǎn)權(quán)問(wèn)題、相關(guān)的產(chǎn)業(yè)發(fā)展問(wèn)題和相應(yīng)的法律法規(guī)建設(shè)問(wèn)題。
(二)大數(shù)據(jù)特征
從不同的角度看待大數(shù)據(jù),對(duì)大數(shù)據(jù)的側(cè)重點(diǎn)理解也各有不同。然而,無(wú)論從怎樣的角度看待大數(shù)據(jù),都離不開(kāi)對(duì)大數(shù)據(jù)主要特征的把握和總結(jié)。本章將大數(shù)據(jù)的主要特征定義為以下四個(gè)方面。
Volume(規(guī)模性):“數(shù)據(jù)量大”是一個(gè)相對(duì)于計(jì)算和存儲(chǔ)能力的說(shuō)法,就目前而言,當(dāng)數(shù)據(jù)量達(dá)到PB級(jí)以上時(shí),一般稱為“大”的數(shù)據(jù)。但是,我們應(yīng)該注意到,大數(shù)據(jù)的時(shí)間分布往往不均勻,近幾年生成數(shù)據(jù)的占比最高。
Variety(多樣性):數(shù)據(jù)多樣性是指大數(shù)據(jù)存在多種類型的數(shù)據(jù),不僅包括結(jié)構(gòu)化數(shù)據(jù),還包括非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。有統(tǒng)計(jì)顯示,在未來(lái),非結(jié)構(gòu)化數(shù)據(jù)的占比將達(dá)到90%以上。非結(jié)構(gòu)化數(shù)據(jù)所包括的數(shù)據(jù)類型很多,例如網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等。數(shù)據(jù)類型的多樣性往往導(dǎo)致數(shù)據(jù)的異構(gòu)性,進(jìn)而加大了數(shù)據(jù)處理的復(fù)雜性,對(duì)數(shù)據(jù)處理能力提出了更高要求。
Value(價(jià)值密度低):在大數(shù)據(jù)中,價(jià)值密度的高低與數(shù)據(jù)總量的大小之間并不存在線性關(guān)系,有價(jià)值的數(shù)據(jù)往往會(huì)被淹沒(méi)在海量無(wú)用數(shù)據(jù)之中,也就是人們常說(shuō)的“我們淹沒(méi)在數(shù)據(jù)的海洋,卻又在忍受著知識(shí)的饑渴”。例如,一段長(zhǎng)達(dá)120分鐘連續(xù)不間斷的監(jiān)控視頻中,有用數(shù)據(jù)可能僅有幾秒。因此,如何在海量數(shù)據(jù)中洞見(jiàn)有價(jià)值的數(shù)據(jù)成為數(shù)據(jù)科學(xué)的重要課題。
Velocity(高速性):大數(shù)據(jù)中所說(shuō)的“速度”包括兩種——增長(zhǎng)速度和處理速度。一方面,大數(shù)據(jù)增長(zhǎng)速度快。另一方面,我們對(duì)大數(shù)據(jù)處理的時(shí)間(計(jì)算速度)要求也越來(lái)越高,這讓“大數(shù)據(jù)的實(shí)時(shí)分析”成為熱門話題。
(三)大數(shù)據(jù)的來(lái)源和產(chǎn)生方式
大數(shù)據(jù)的來(lái)源非常多,如信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)系統(tǒng)、科學(xué)實(shí)驗(yàn)系統(tǒng)等。
信息管理系統(tǒng):企業(yè)內(nèi)部使用的信息系統(tǒng),包括辦公自動(dòng)化系統(tǒng)、業(yè)務(wù)管理系統(tǒng)等。信息管理系統(tǒng)主要通過(guò)用戶輸入和系統(tǒng)二次加工的方式產(chǎn)生數(shù)據(jù),其產(chǎn)生的大數(shù)據(jù)大多數(shù)為結(jié)構(gòu)化數(shù)據(jù),通常存儲(chǔ)在數(shù)據(jù)庫(kù)中,一般為關(guān)系型數(shù)據(jù)。
網(wǎng)絡(luò)信息系統(tǒng):基于網(wǎng)絡(luò)運(yùn)行的信息系統(tǒng)即網(wǎng)絡(luò)信息系統(tǒng)是大數(shù)據(jù)產(chǎn)生的重要來(lái)源,如電子商務(wù)系統(tǒng)、社交網(wǎng)絡(luò)、社會(huì)媒體、搜索引擎等都是常見(jiàn)的網(wǎng)絡(luò)信息系統(tǒng)。網(wǎng)絡(luò)信息系統(tǒng)產(chǎn)生的大數(shù)據(jù)多為半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),在本質(zhì)上,網(wǎng)絡(luò)信息系統(tǒng)是信息管理系統(tǒng)的延伸,專屬于某個(gè)領(lǐng)域的應(yīng)用,具備某個(gè)特定的目的。因此,網(wǎng)絡(luò)信息系統(tǒng)有著更獨(dú)特的應(yīng)用。
物聯(lián)網(wǎng)系統(tǒng):物聯(lián)網(wǎng)是新一代信息技術(shù),其核心和基礎(chǔ)仍然是互聯(lián)網(wǎng),是在互聯(lián)網(wǎng)基礎(chǔ)上延伸和擴(kuò)展的網(wǎng)絡(luò),其用戶端延伸和擴(kuò)展到了任何物品與物品之間,來(lái)進(jìn)行信息交換和通信,而其具體實(shí)現(xiàn)是通過(guò)傳感技術(shù)獲取外界的物理、化學(xué)、生物等數(shù)據(jù)信息。
科學(xué)實(shí)驗(yàn)系統(tǒng):主要用于科學(xué)技術(shù)研究,可以由真實(shí)的實(shí)驗(yàn)產(chǎn)生數(shù)據(jù),也可以通過(guò)模擬方式獲取仿真數(shù)據(jù)。
從數(shù)據(jù)庫(kù)技術(shù)誕生以來(lái),產(chǎn)生大數(shù)據(jù)的方式主要有以下3種。
被動(dòng)式生成數(shù)據(jù):數(shù)據(jù)庫(kù)技術(shù)使得數(shù)據(jù)的保存和管理變得簡(jiǎn)單,業(yè)務(wù)系統(tǒng)在運(yùn)行時(shí)產(chǎn)生的數(shù)據(jù)可以直接保存到數(shù)據(jù)庫(kù)中,由于數(shù)據(jù)是隨業(yè)務(wù)系統(tǒng)運(yùn)行而產(chǎn)生的,因此該階段所產(chǎn)生的數(shù)據(jù)是被動(dòng)的。
主動(dòng)式生成數(shù)據(jù):物聯(lián)網(wǎng)的誕生,使得移動(dòng)互聯(lián)網(wǎng)的發(fā)展大大提升了數(shù)據(jù)的產(chǎn)生速度。例如,人們可以通過(guò)手機(jī)等移動(dòng)終端,隨時(shí)隨地產(chǎn)生數(shù)據(jù)。大量移動(dòng)終端設(shè)備的出現(xiàn),使用戶不僅主動(dòng)提交自己的行為,還和自己的社交圈進(jìn)行了實(shí)時(shí)互動(dòng),因此數(shù)據(jù)被大量地生產(chǎn)出來(lái),且具有極其強(qiáng)烈的傳播性。顯然如此生成的數(shù)據(jù)是主動(dòng)的。
感知式生成數(shù)據(jù):物聯(lián)網(wǎng)的發(fā)展使得數(shù)據(jù)生成方式得到徹底的改變。例如遍布在城市各個(gè)角落的攝像頭等數(shù)據(jù)采集設(shè)備源源不斷地自動(dòng)采集并生成數(shù)據(jù)。
- 立體構(gòu)成:概念 應(yīng)用與欣賞(第2版)
- 統(tǒng)計(jì)學(xué)
- DSP原理及應(yīng)用
- 經(jīng)濟(jì)學(xué)基礎(chǔ)學(xué)習(xí)指導(dǎo)
- 伍德里奇《計(jì)量經(jīng)濟(jì)學(xué)導(dǎo)論》(第5版)筆記和課后習(xí)題詳解
- JSP應(yīng)用教程(修訂本)
- 大學(xué)物理學(xué)(上冊(cè))
- 經(jīng)濟(jì)法基礎(chǔ)
- 2020年西藏自治區(qū)選聘大學(xué)生村官考試《申論》題庫(kù)【真題精選+章節(jié)題庫(kù)+模擬試題】
- 2019年經(jīng)濟(jì)師《經(jīng)濟(jì)基礎(chǔ)知識(shí)(中級(jí))》復(fù)習(xí)全書【要點(diǎn)精講+歷年真題詳解】
- 電子商務(wù)物流管理(微課版·第4版)
- 環(huán)境設(shè)計(jì):手繪表現(xiàn)效果圖
- 項(xiàng)目管理基礎(chǔ)工具:五圖二表
- 2020年海南省選調(diào)生考試《行政職業(yè)能力測(cè)驗(yàn)》考點(diǎn)精講及典型題(含歷年真題)詳解
- 蘇州大學(xué)東吳商學(xué)院434國(guó)際商務(wù)專業(yè)基礎(chǔ)[專業(yè)碩士]歷年考研真題及詳解