官术网_书友最值得收藏!

1.1 正解大數(shù)據(jù):世上本沒有數(shù)本章部分內(nèi)容編選自本書編著者之一涂子沛2014年在中信出版社出版的《數(shù)據(jù)之巔:大數(shù)據(jù)革命,歷史、現(xiàn)實(shí)與未來(lái)》一書。[2]

傳統(tǒng)意義上的“數(shù)據(jù)”,是指“有根據(jù)的數(shù)字”。數(shù)字之所以產(chǎn)生,是因?yàn)槿祟愒趯?shí)踐中發(fā)現(xiàn),僅僅用語(yǔ)言、文字和圖形來(lái)描述這個(gè)世界是不精確的,也是遠(yuǎn)遠(yuǎn)不夠的。例如,有人問(wèn)“姚明有多高”,如果回答說(shuō)“很高”“非常高”“最高”,別人聽了,只能得到一個(gè)抽象的印象,因?yàn)槊總€(gè)人對(duì)“很”有不同的理解,“非常”和“最”也是相對(duì)的;但如果回答說(shuō)“2.26米”,就一清二楚。除了描述世界,數(shù)據(jù)還是我們改造世界的重要工具。人類的一切生產(chǎn)、交換活動(dòng),可以說(shuō)都是以數(shù)據(jù)為基礎(chǔ)展開的,例如度量衡、貨幣的背后都是數(shù)據(jù),它們的發(fā)明或出現(xiàn),都極大地推動(dòng)了人類文明的進(jìn)步。

如圖1.1所示,數(shù)據(jù)的來(lái)源分為測(cè)量、記錄和計(jì)算。數(shù)據(jù)最早來(lái)源于測(cè)量,所謂“有根據(jù)的數(shù)字”,是指數(shù)據(jù)是對(duì)客觀世界測(cè)量結(jié)果的記錄,而不是隨意產(chǎn)生的。測(cè)量是從古至今科學(xué)研究最主要的手段。可以說(shuō),沒有測(cè)量,就沒有科學(xué);也可以說(shuō),一切科學(xué)的本質(zhì)都是測(cè)量。就此而言,數(shù)據(jù)之于科學(xué)的重要性,就像語(yǔ)言之于文學(xué)、音符之于音樂、形色之于美術(shù)一樣,離開數(shù)據(jù),就沒有科學(xué)可言。

圖1.1 數(shù)據(jù)的來(lái)源

除了測(cè)量和顯而易見的記錄,新數(shù)據(jù)還可以由老數(shù)據(jù)經(jīng)計(jì)算衍生而來(lái)。測(cè)量和計(jì)算都是人為的,也就是說(shuō),世上本沒有數(shù),一切數(shù)據(jù)都是人為的產(chǎn)物。我們說(shuō)的“原始數(shù)據(jù)”,并不是“原始森林”這個(gè)意義上的“原始”。原始森林是指天然就存在的森林,而原始數(shù)據(jù)僅僅是指第一手、沒有經(jīng)過(guò)人為修改的數(shù)據(jù)。

如圖1.2所示,傳統(tǒng)意義上的數(shù)據(jù),和信息、知識(shí)也是完全不同的概念:數(shù)據(jù)是信息的載體,信息是有背景的數(shù)據(jù),而知識(shí)是經(jīng)過(guò)人類的歸納和整理,最終呈現(xiàn)規(guī)律的信息。

圖1.2 數(shù)據(jù)、信息、知識(shí)的區(qū)別和聯(lián)系

20世紀(jì)60年代,軟件科學(xué)取得了巨大進(jìn)步,數(shù)據(jù)庫(kù)被發(fā)明。此后,數(shù)字、文本、圖片都不加區(qū)分地保存在計(jì)算機(jī)的數(shù)據(jù)庫(kù)中,以“比特”為單位進(jìn)行存儲(chǔ),“數(shù)據(jù)”二字的內(nèi)涵開始擴(kuò)大。“數(shù)據(jù)”不僅指代那些作為“量”而存在的數(shù)據(jù)——也就是“量數(shù)”,還逐漸成為“數(shù)字、文本、圖片、音頻、視頻”等的統(tǒng)稱,即“信息”的代名詞,由于這些信息作為一種證據(jù)、根據(jù)而存在,因此可以稱為“據(jù)數(shù)”。

在此基礎(chǔ)上,關(guān)于大數(shù)據(jù)的定義,筆者主張用下面這樣一個(gè)式子來(lái)較為簡(jiǎn)潔、精確地表示。

大數(shù)據(jù)=傳統(tǒng)的量數(shù)+現(xiàn)代的據(jù)數(shù)

(量數(shù)源于測(cè)量,如氣溫28℃;據(jù)數(shù)源于記錄,如一張照片)

雖然量數(shù)比據(jù)數(shù)更接近“數(shù)”,但從歷史上看,據(jù)數(shù)的出現(xiàn)要早于量數(shù)。人類早期對(duì)自身活動(dòng)的記錄,即“史”,就是早期的據(jù)數(shù),也可以說(shuō),據(jù)數(shù)是歷史的影子。量數(shù)則是在記錄的實(shí)踐中慢慢產(chǎn)生的,其核心要義是精確。量數(shù)是否充沛,直接決定了科學(xué)是否發(fā)達(dá)。從這個(gè)角度出發(fā),數(shù)據(jù)的來(lái)源就不再只是對(duì)世界的測(cè)量,而是對(duì)世界的一種記錄。所以信息時(shí)代的數(shù)據(jù)又多了一個(gè)來(lái)源——記錄。

圖1.3 現(xiàn)代數(shù)據(jù)的范疇

進(jìn)入信息時(shí)代之后,數(shù)據(jù)成為信息的代名詞,兩者可以交替使用。一封郵件雖然包含很多條信息,但從技術(shù)的角度出發(fā),可能還是“一個(gè)數(shù)據(jù)”。就此而言,現(xiàn)代意義上的數(shù)據(jù)的范疇,其實(shí)比信息還大,如圖1.3所示。

除了內(nèi)涵的擴(kuò)大,數(shù)據(jù)庫(kù)問(wèn)世之后,還出現(xiàn)了另外一個(gè)重要現(xiàn)象,那就是數(shù)據(jù)的總量在不斷增加,而且增加的速度在不斷加快。

20世紀(jì)80年代,美國(guó)就有人提出了“大數(shù)據(jù)”的概念。這個(gè)時(shí)候,其實(shí)還沒有進(jìn)入數(shù)據(jù)大爆炸的時(shí)代,但有人預(yù)見到,隨著信息技術(shù)的進(jìn)步,軟件的重要性將下降,數(shù)據(jù)的重要性將上升,因此提出“大數(shù)據(jù)”的概念。那時(shí)候的“大”,如“大人物”和“大轉(zhuǎn)折”之“大”,主要指價(jià)值上的重要性。到了21世紀(jì),尤其是2004年社交媒體產(chǎn)生之后,數(shù)據(jù)開始呈爆炸式增長(zhǎng),國(guó)際數(shù)據(jù)公司(IDC)的數(shù)據(jù)顯示,2011—2018年,全球的數(shù)據(jù)量增長(zhǎng)了18倍,大數(shù)據(jù)的提法又重新進(jìn)入大眾的視野并獲得了更大的關(guān)注。這個(gè)時(shí)候的“大”,含義也更加豐富了:一是指容量大,二是指價(jià)值大。

到底多大才算大呢?針對(duì)這一問(wèn)題,十多年來(lái)爭(zhēng)議頗多。這首先涉及衡量數(shù)據(jù)大小的單位。2000年的時(shí)候,一般認(rèn)為“太字節(jié)(TB)”級(jí)別的數(shù)據(jù)就是大數(shù)據(jù)了,當(dāng)時(shí)擁有“太”級(jí)別數(shù)據(jù)的企業(yè)并不多,但自此之后,互聯(lián)網(wǎng)企業(yè)開始崛起,這些企業(yè)擁有各種各樣的數(shù)據(jù),其中大部分都是文本、圖片和視頻,其數(shù)據(jù)量之大,傳統(tǒng)企業(yè)根本無(wú)法望其項(xiàng)背。

延伸閱讀

理解幾個(gè)主要的存儲(chǔ)單位

一首標(biāo)準(zhǔn)音質(zhì)的歌曲≈4兆字節(jié)(MB)

一部標(biāo)準(zhǔn)畫質(zhì)的電影≈1吉字節(jié)(GB,1吉字節(jié)=1024兆字節(jié),相當(dāng)于250首標(biāo)準(zhǔn)音質(zhì)歌曲的大小)

一個(gè)普通圖書館的藏書≈1太字節(jié)(TB,1太字節(jié)=1024吉字節(jié),相當(dāng)于1024部標(biāo)準(zhǔn)畫質(zhì)電影的大小)


其實(shí)不僅僅是互聯(lián)網(wǎng)行業(yè),各行各業(yè)的數(shù)據(jù)都在爆炸,只是規(guī)模不同。如果僅僅把大數(shù)據(jù)的標(biāo)準(zhǔn)限定在互聯(lián)網(wǎng)企業(yè),認(rèn)為只有互聯(lián)網(wǎng)企業(yè)才擁有大數(shù)據(jù),那就嚴(yán)重狹隘化了大數(shù)據(jù)的意義。畢竟容量只是表象,價(jià)值才是本質(zhì),而且大容量并不一定代表大價(jià)值。大數(shù)據(jù)的真正意義還在于大價(jià)值,價(jià)值主要通過(guò)數(shù)據(jù)的整合、分析和開放而獲得。從這個(gè)方面來(lái)看,大數(shù)據(jù)的真正意義是,人類擁有了前所未有的能力來(lái)使用海量的數(shù)據(jù),在其中發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值,從而為社會(huì)帶來(lái)“大知識(shí)”“大科技”“大效益”和“大智能”等發(fā)展機(jī)遇。

以上論述是從概念上分析“數(shù)據(jù)”和“大數(shù)據(jù)”的區(qū)別,而掌握一個(gè)概念最好的方法,還是得從動(dòng)態(tài)上了解其成因。大數(shù)據(jù)的形成,不僅是因?yàn)槿祟愋畔⒓夹g(shù)的進(jìn)步,還是信息技術(shù)領(lǐng)域不同時(shí)期多個(gè)進(jìn)步交互作用的結(jié)果,其中最重要的原因,當(dāng)數(shù)摩爾定律的持續(xù)有效。

主站蜘蛛池模板: 历史| 宝坻区| 辽源市| 牟定县| 年辖:市辖区| 肃宁县| 莎车县| 南宁市| 平泉县| 望城县| 句容市| 武鸣县| 达孜县| 靖江市| 五原县| 五寨县| 元阳县| 武宣县| 新闻| 乌海市| 吉安市| 滕州市| 柞水县| 托里县| 东乡族自治县| 兴义市| 昌宁县| 静宁县| 江达县| 邵阳市| 界首市| 通州区| 大兴区| 阳西县| 安溪县| 永吉县| 沅江市| 丰原市| 宁强县| 滨州市| 梁河县|