官术网_书友最值得收藏!

1.4 相關概念界定

大數(shù)據(jù)和政府數(shù)據(jù)開放都是目前研究的熱點問題,對數(shù)據(jù)、大數(shù)據(jù)、政府數(shù)據(jù)開放等概念的厘清和界定對研究的進一步發(fā)展具有重要的意義。

1.4.1 數(shù)據(jù)

數(shù)據(jù)的概念從古至今也在不斷的演變過程中。查閱各種詞典,關于數(shù)據(jù)的定義有很大的不同。漢語詞典的定義為:科學實驗、檢驗、統(tǒng)計等所獲得的和用于科學研究、技術設計、查證、決策等的數(shù)值。[14]新華字典中的定義為:電子計算機加工處理的對象。早期的計算機主要用于科學計算,故加工的對象主要是表示數(shù)值的數(shù)字。現(xiàn)代計算機的應用越來越廣,能加工處理的對象包括數(shù)字、文字、字母、符號、文件、圖像等。[15]在百度知道中的定義為:關于自然、社會現(xiàn)象和科學實驗的定量或定性的記錄。[16]在維基百科中定義為:關于事件的一組離散且客觀的事實描述,是構成信息和知識的原始材料,是計算機加工的“原料”,如圖形、聲音、文字、數(shù)、字符和符號等。數(shù)據(jù)可分為模擬數(shù)據(jù)和數(shù)字數(shù)據(jù)兩大類。[17]

數(shù)據(jù)(data)起源于拉丁字母的復數(shù)形式,是信息科學領域的核心概念,隨著網(wǎng)絡技術和信息社會的發(fā)展,學者們對數(shù)據(jù)的概念有了新的認識。

早在1975年Wersig和Neveling在《文檔的術語:1200個基礎詞匯的選擇》一書中認為:數(shù)據(jù)是被量化的或者合格的數(shù)據(jù)集。[18]1996年Wellisch在《摘要、索引、分類、詞庫建設:詞匯表》一文中認為:在計算機系統(tǒng)中,數(shù)據(jù)是指編碼的不變性。數(shù)據(jù)是實體或概念的代表,由人類或自動化系統(tǒng)內(nèi)置,作為交流、解釋或者處理的格式。[19]Chaim Zins在2007年發(fā)表的《定義數(shù)據(jù)、信息、知識的概念方法》一文中又指出:數(shù)據(jù)是指在計算機使用過程中的記錄或者編碼中的記錄,但是更廣范圍應用于統(tǒng)計記錄和其他記錄或者證據(jù)的集合。[20]

隨著信息科學中知識管理的興起,關于數(shù)據(jù)的定義學者們更多地從數(shù)據(jù)、信息的關系中開始界定。Chaim Zins在2006年發(fā)表的《重新界定信息科學——從信息科學到知識科學》指出:數(shù)據(jù)是信息的原材料,也是知識的原材料。[21]Davis和Olson在1985年出版的《管理信息系統(tǒng)》一書中指出:信息是被加工后對接收者有意義的數(shù)據(jù)。[22]Checkland和Scholes在1990年出版的《在運行當中的軟件系統(tǒng)方法論》一書中認為:信息等同于數(shù)據(jù)+意義。[23] Lucey 1991年在《管理信息系統(tǒng)》一書中指出:數(shù)據(jù)需要被解釋和加工才能成為信息。[24]Warner在1996年的著作《信息系統(tǒng)的交流技巧》中對信息的定義界定為:信息是已經(jīng)被解釋和被接收者所理解的數(shù)據(jù)。[25]G. A. Silver和M. L. Silver在1989年出版的《系統(tǒng)分析和設計》一書中認為:數(shù)據(jù)是被加工和提煉成信息的原材料等(見圖1-1)。[26]

圖1-1 從數(shù)據(jù)到知識的轉化過程圖[27]

數(shù)據(jù)概念的發(fā)展演變是一個循序漸進的過程,尤其是隨著大數(shù)據(jù)技術的發(fā)展,對于數(shù)據(jù)的重新認識和界定加深、拓寬了數(shù)據(jù)的外延和內(nèi)涵。在大數(shù)據(jù)的環(huán)境中,本書所指的數(shù)據(jù)是原始數(shù)據(jù),即沒有被分析、加工或者處理過的數(shù)據(jù),既包括結構化數(shù)據(jù),也包括半結構化和非結構化的數(shù)據(jù)。

1.4.2 大數(shù)據(jù)[28]

關于大數(shù)據(jù)這個詞的起源,有學者認為來自美國未來學家托夫勒的《第三次浪潮》,實際上,1997年Michael Cox和David Ellsworth在電子電器工程協(xié)會(IEEE)舉辦的第八屆可視化會議上發(fā)表的論文中首次提到大數(shù)據(jù)這個概念,二位學者在文中指出:可視化為計算機系統(tǒng)的發(fā)展提出了有趣的挑戰(zhàn):數(shù)據(jù)集的數(shù)量大,加重了內(nèi)存、磁盤甚至是遠程磁盤的負擔,將其稱為“大數(shù)據(jù)的問題”。當數(shù)據(jù)不適合存儲在主存儲器,甚至是本地磁盤,最常用的方法是獲取更多的資源方便存儲。

1998年硅谷圖形公司的前首席科學家John Mashey在題為《大數(shù)據(jù)下一代架構的壓力》報告中以大數(shù)據(jù)為主題,對大數(shù)據(jù)的概念做了初步的界定。Mashey所言的大數(shù)據(jù)主要指數(shù)據(jù)容量的快速增長,其中特指互聯(lián)網(wǎng)等相對較新的數(shù)據(jù)源,并且介紹了它對存儲系統(tǒng)的影響。同樣在1998年S. M. Weiss和N. Indurkhya出版的《預測性數(shù)據(jù)挖掘:實用指導手冊》一書中也提到:非常大的數(shù)據(jù)集被集中存儲在數(shù)據(jù)庫當中,讓分析家們充分利用強有力的工具全面地分析數(shù)據(jù)。在理論上,“大數(shù)據(jù)”在數(shù)據(jù)挖掘的應用中可以產(chǎn)生更有利的結論,但在實踐中困難卻很多。[29]

在1999年8月Steve Bryson、David Kenwright、Michael Cox、David Ellsworth和Robert Haimes在《ACM通信》中首次以大數(shù)據(jù)為題目,以論文的形式發(fā)表了《科學可視化的大數(shù)據(jù)》。雖然之前John Mashey也發(fā)表了以大數(shù)據(jù)為題目的報告,但普遍認為John Mashey的報告屬于內(nèi)部報告,并非正式出版的學術文獻。在同年10月Robert van Liere和Sam Uselton在IEEE可視化會議上發(fā)表的《自動化或者互動:大數(shù)據(jù)對誰最有利》的論文中也對大數(shù)據(jù)進行了探討。

對大數(shù)據(jù)這個概念做出突破性界定的當屬Laney。2001年Garter的分析師Laney提出了3V學說,對大數(shù)據(jù)的認識有了進一步的發(fā)展。Laney認為大數(shù)據(jù)的增長不僅僅是數(shù)量(volume)的增長,而且也是速度(velocity)和種類(variety)的增長。在電子商務環(huán)境中,關注信息管理需要更多的合作,可以使企業(yè)從信息資產(chǎn)中獲得更大的回報。[30]

自從2001年以來,正如Randal E. Bryant、Randy H. Katz、Edward D. Lazowska等在《大數(shù)據(jù)計算:在商業(yè)、科學和社會領域創(chuàng)造革命性的突破》一文所言:“大數(shù)據(jù)技術可能是過去十年最大的創(chuàng)新。我們已經(jīng)開始在各行各業(yè)的數(shù)據(jù)收集、組織和處理方面看到了它的潛力。”[31]

2011年麥肯錫發(fā)表的《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)率的前沿》是從經(jīng)濟和商業(yè)維度詮釋大數(shù)據(jù)發(fā)展?jié)摿Φ牡谝环輰n}研究成果,該報告系統(tǒng)闡述了大數(shù)據(jù)概念,詳細列舉了大數(shù)據(jù)的核心技術,深入分析了大數(shù)據(jù)在不同行業(yè)的應用,明確提出了政府和企業(yè)決策者應對大數(shù)據(jù)發(fā)展的策略。該報告認為,“大數(shù)據(jù)”是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集。該定義有兩方面內(nèi)涵:①符合大數(shù)據(jù)標準的數(shù)據(jù)集大小是變化的,會隨著時間推移和技術的進步而增長;②不同部門符合大數(shù)據(jù)標準的數(shù)據(jù)集大小會存在差別。目前,大數(shù)據(jù)的一般范圍是從幾TB到數(shù)PB(數(shù)千TB)。

Danah Boyd和Kate Crawford在2012年發(fā)表《反思大數(shù)據(jù):針對這一文化、科學和學術現(xiàn)象》一文,在該文中將大數(shù)據(jù)定義為:一個依賴技術(利用計算和算法的準確性實現(xiàn)對數(shù)據(jù)的收集、分析和對比等)、分析(依據(jù)很大的數(shù)據(jù)庫挖掘類型,并做出經(jīng)濟、社會技術和法律判斷)和神話(一種廣泛傳播的信念:大數(shù)據(jù)庫將提供一種更高形式的智慧和知識,它所生成的真實、準確和客觀的洞察將是以前的時代所不可能實現(xiàn)的)的互動現(xiàn)象,它所引發(fā)的是廣泛的烏托邦和反烏托邦的言辭。[32]2013年可以稱為大數(shù)據(jù)年,從新聞到學術機構以及政府、企業(yè)對于大數(shù)據(jù)的報道和研究空前高漲。

從中國期刊網(wǎng)查找顯示,我國學者中,最早進行大數(shù)據(jù)相關探討的是李京基、姜蘭、徐暄于1985年在物化探測計算技術上發(fā)表的《利用磁盤實現(xiàn)大數(shù)據(jù)量二維快速傅里葉變換的方法》一文,探討了在地礦部業(yè)京計算中心的國產(chǎn)150機上調(diào)通了能使52萬大數(shù)據(jù)量的航磁數(shù)據(jù)進行快速傅里葉變換的程序,并對Ekluodh快速矩陣轉置算法作了進一步推廣,將它用于通過磁盤實現(xiàn)大數(shù)據(jù)量二維快速傅里葉變換并獲得成功。

在此之后,我國學者關于“大數(shù)據(jù)”的探討基本上體現(xiàn)在“大數(shù)據(jù)量”“大數(shù)據(jù)集”“大數(shù)據(jù)文件”方面的研究,并且這方面的研究在逐年增加。尤其在2011年關于“大數(shù)據(jù)”這個概念的文章開始增多,在2013年達到2026篇,但對大數(shù)據(jù)含義的認識也基本上沿用國外學者、研究報告的定義。例如:涂蘭靜在《專家觀點:“大數(shù)據(jù)”與“海量數(shù)據(jù)”的區(qū)別》[33]一文中做了分析,將大數(shù)據(jù)總結為兩種認識:①大數(shù)據(jù)=海量數(shù)據(jù)+復雜類型的數(shù)據(jù);②大數(shù)據(jù)包含ABC三個要素,即大分析(Analytic)、大帶寬(Bandwidth)和大內(nèi)容(Content)。張毅菁在《大數(shù)據(jù)對我國政府信息公開立法修改的啟示》[34]沿用的是涂子沛的觀點:大數(shù)據(jù)是指一般的軟件工具難以采集、提取、轉化、存儲和分析的大容量數(shù)據(jù),其更大的意義在于:通過對大容量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來“大知識”“大科技”“大利潤”和“大發(fā)展”。馮芷艷、郭迅華、曾大軍等在《大數(shù)據(jù)背景下商務管理研究若干前沿課題》[35]一文中列舉的定義有:①維基百科的定義,“無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合”; ②權威IT研究與顧問咨詢公司Gartner的定義,“在一個或多個維度上超出傳統(tǒng)信息技術的處理能力的極端信息管理和處理問題”; ③美國國家科學基金會(NSF)的定義,“由科學儀器、傳感設備、互聯(lián)網(wǎng)交易、電子郵件、音視頻軟件、網(wǎng)絡點擊流等多種數(shù)據(jù)源生成的大規(guī)模、多元化、復雜、長期的分布式數(shù)據(jù)集”等。

綜上所述,我國學者對于大數(shù)據(jù)的定義基本上沿用國外研究報告、機構以及學術文獻中的定義,對大數(shù)據(jù)的含義未有定論。本書從來源、特點、來源+特點+價值+屬性的角度總結和分析大數(shù)據(jù)的含義(見表1-2)。

表1-2 大數(shù)據(jù)定義的角度分析

1.4.3 政府數(shù)據(jù)開放

(1)國際組織關于政府數(shù)據(jù)開放的定義。世界銀行在2012年發(fā)表的《如何認識開放政府數(shù)據(jù)提高政府的責任感》報告中認為:開放數(shù)據(jù)指的是非專有的、機器可讀的數(shù)據(jù),任何人都沒有法律或技術的限制,可以自由使用、重復使用、操作和傳播,而開放的數(shù)據(jù)可能來自任何地方。政府開放數(shù)據(jù)是開放數(shù)據(jù)的一部分,是指政府產(chǎn)生的、收集和擁有的數(shù)據(jù),在知識共享許可下發(fā)布,允許共享、分發(fā)、修改,甚至對其進行商業(yè)使用的具有正當歸屬的數(shù)據(jù)。[37]

(2)政府機構關于數(shù)據(jù)開放的定義。2012年德國內(nèi)政部發(fā)布的《德國數(shù)據(jù)開放》的報告中,將政府數(shù)據(jù)開放定義為公共行政機構所有的能被第三方重新利用的數(shù)據(jù)。[38]同年,英國政府《開放數(shù)據(jù)白皮書》中將開放政府數(shù)據(jù)定義為:公共領域的信息中已經(jīng)開放給公眾使用的數(shù)據(jù)。[39]

(3)學者關于政府數(shù)據(jù)開放的定義。Ubaldi在2013年發(fā)表的《開放政府數(shù)據(jù):開放政府數(shù)據(jù)創(chuàng)意的實證分析》一文中認為對于開放數(shù)據(jù)到底是指原始數(shù)據(jù)的開放還是加工過數(shù)據(jù)的開放并沒有明確的結論,重點在于數(shù)據(jù)的開放和再利用的問題。[40]Martin Alvarez Espinar在2012年《開放政府數(shù)據(jù)——情景設置》一文中對政府開放數(shù)據(jù)定義為:開發(fā)原始的公共領域的信息,在開放的格式和非限制性許可的情況下利用和再利用信息。[41]Tim Davies在2010年發(fā)表的《開放數(shù)據(jù)、民主、公共領域改革——對www.data.gov.uk政府數(shù)據(jù)利用的回顧》一文中認為政府數(shù)據(jù)開放通常指許可在不同的背景下用標準的和可重復使用的格式利用數(shù)據(jù)(如在網(wǎng)絡上的使用)。[42]

筆者認為在定義政府開放數(shù)據(jù)之前,首先需要界定清楚公共領域信息和政府數(shù)據(jù)之間的關系。OECD在2008年《向理事會建議提高公眾利用信息》的報告中指出:公共領域信息是指由或者為政府或者公共機構所生產(chǎn)、創(chuàng)造、收集、處理、保存和保留、傳播或者資助的信息產(chǎn)品和服務。[43]同樣,澳大利亞政府信息委員會關于公共領域信息也有類似的定義:由或者為政府、公共機構產(chǎn)生、創(chuàng)造、收集、處理、保存、維護、傳播或者資助的數(shù)據(jù)、信息和內(nèi)容。[44]

由此可知,政府數(shù)據(jù)是公共領域信息的一部分,即公共領域信息=政府數(shù)據(jù)+公共機構數(shù)據(jù)(見圖1-2)。

圖1-2 政府開放數(shù)據(jù)、公共領域信息與大數(shù)據(jù)關系圖[45]

第二,關于數(shù)據(jù)開放粒度的認識,目前可將其分為三種:①政府數(shù)據(jù)開放就是數(shù)據(jù)鏈的開放。開放數(shù)據(jù)所指數(shù)據(jù)應該從數(shù)據(jù)鏈的角度予以理解,它是包含所有事實、數(shù)據(jù)、信息、知識、智慧所組成的數(shù)據(jù)。它不是單一的數(shù)據(jù)鏈上的某一種元素,而是呈現(xiàn)的一種集合數(shù)據(jù)形式。[46]②政府數(shù)據(jù)開放=數(shù)據(jù)+信息的開放。政府數(shù)據(jù)開放是指由政府和政府控制的實體生產(chǎn)和委托所產(chǎn)生的數(shù)據(jù)和信息的開放。[47]③政府數(shù)據(jù)開放就是原始數(shù)據(jù)的開放。政府按照用戶特定的需求和一定的互聯(lián)網(wǎng)協(xié)議、規(guī)則、框架,對Web數(shù)據(jù)進行存儲和組織,而利用的數(shù)據(jù)或來自不同的數(shù)據(jù)源,或是不同的數(shù)據(jù)類型,最終目標是實現(xiàn)數(shù)據(jù)在網(wǎng)絡空間的開放、共享與重用(見圖1-3)。[48]

圖1-3 數(shù)據(jù)開放的粒度分析圖

而對首提政府數(shù)據(jù)開放的奧巴馬政府來講,數(shù)據(jù)開放的初衷是指原始數(shù)據(jù)(raw data)的開放,在其政府數(shù)據(jù)開放的八大原則中第二原則就指出,“數(shù)據(jù)必須是原始的”。本書所指的數(shù)據(jù)開放也是指原始數(shù)據(jù)的開放,因為數(shù)據(jù)用最小的粒度呈現(xiàn)給用戶,讓不同的用戶各取所需,自己決定怎樣組合它們,數(shù)據(jù)才能發(fā)揮全部的潛在價值。

主站蜘蛛池模板: 武乡县| 河北区| 黔南| 瑞安市| 鸡东县| 河西区| 永寿县| 喀什市| 天峨县| 乐清市| 青神县| 依安县| 新闻| 曲靖市| 新丰县| 宝山区| 昭平县| 高碑店市| 金坛市| 集安市| 漯河市| 顺义区| 黄梅县| 中阳县| 阿拉善右旗| 黄龙县| 建水县| 壶关县| 凉城县| 宁国市| 南宁市| 大邑县| 皋兰县| 大化| 洛川县| 马尔康县| 安平县| 辛集市| 德格县| 麻城市| 怀柔区|