官术网_书友最值得收藏!

1.4 大數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀與趨勢

1.4.1 大數(shù)據(jù)的產(chǎn)生

從文明之初的“結(jié)繩記事”,到文字發(fā)明后的“文以載道”,再到近現(xiàn)代科學的“數(shù)據(jù)建模”,數(shù)據(jù)一直伴隨著人類社會的發(fā)展變遷,承載了人類基于數(shù)據(jù)和信息認識世界的努力和取得的巨大進步。然而,直到以電子計算機為代表的現(xiàn)代信息技術(shù)出現(xiàn),為數(shù)據(jù)處理提供了有效方法和手段后,人類掌握數(shù)據(jù)、處理數(shù)據(jù)的能力才實現(xiàn)了質(zhì)的躍升。信息技術(shù)及其在經(jīng)濟社會發(fā)展方方面面的應(yīng)用(即信息化),推動數(shù)據(jù)(信息)成為繼物質(zhì)、能源之后的又一種重要戰(zhàn)略資源。

雖然大數(shù)據(jù)這個概念是最近才提出的,但大型數(shù)據(jù)集的起源卻可追溯至20世紀60年代。當時數(shù)據(jù)世界正處于萌芽階段,全球第一批數(shù)據(jù)中心和首個關(guān)系數(shù)據(jù)庫便是在那個時代出現(xiàn)的。

“大數(shù)據(jù)”作為一種概念和思潮由計算領(lǐng)域發(fā)端,之后逐漸延伸到科學和商業(yè)領(lǐng)域。大多數(shù)學者認為,“大數(shù)據(jù)”這一概念最早公開出現(xiàn)于1998年。美國高性能計算公司SGI的首席科學家約翰·馬西(John Mashey)在一個國際會議報告中指出,隨著數(shù)據(jù)量的快速增長,必將出現(xiàn)數(shù)據(jù)難理解、難獲取、難處理和難組織四個難題。用“big data(大數(shù)據(jù))”來描述這一挑戰(zhàn),在計算領(lǐng)域引發(fā)思考。

2005年左右,人們開始意識到用戶在使用Facebook、YouTube以及其他在線服務(wù)時生成了海量數(shù)據(jù)。同一年,專為存儲和分析大型數(shù)據(jù)集而開發(fā)的開源框架Hadoop問世,NoSQL也在同一時期開始慢慢普及開來。

2007年,數(shù)據(jù)庫領(lǐng)域的先驅(qū)人物吉姆·格雷(Jim Gray)指出大數(shù)據(jù)將成為人類觸摸、理解和逼近現(xiàn)實復(fù)雜系統(tǒng)的有效途徑,并認為在實驗觀測、理論推導(dǎo)和計算仿真三種科學研究范式后,將迎來第四范式——“數(shù)據(jù)探索”,后來同行學者將其總結(jié)為“數(shù)據(jù)密集型科學發(fā)現(xiàn)”,開啟了從科研視角審視大數(shù)據(jù)的熱潮。

2012年,牛津大學教授維克托·邁爾-舍恩伯格(Viktor Mayer-Schnberger)在其暢銷著作《大數(shù)據(jù)時代》(Big Data:A Revolution That Will Transform How We Live,Work and Think)中指出,數(shù)據(jù)分析將從“隨機采樣”“精確求解”和“強調(diào)因果”的傳統(tǒng)模式演變?yōu)榇髷?shù)據(jù)時代的“全體數(shù)據(jù)”“近似求解”和“只看關(guān)聯(lián)不問因果”的新模式,從而引發(fā)商業(yè)應(yīng)用領(lǐng)域?qū)Υ髷?shù)據(jù)方法的廣泛思考與探討。

大數(shù)據(jù)于2012年、2013年達到宣傳高潮,2014年后大數(shù)據(jù)概念體系逐漸成形,人們對其的認知亦趨于理性。大數(shù)據(jù)相關(guān)技術(shù)、產(chǎn)品、應(yīng)用和標準不斷發(fā)展,逐漸形成了由數(shù)據(jù)資源與API、開源平臺與工具、數(shù)據(jù)基礎(chǔ)設(shè)施、數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用等板塊構(gòu)成的大數(shù)據(jù)生態(tài)系統(tǒng),并持續(xù)發(fā)展和不斷完善。其發(fā)展過程呈現(xiàn)了從技術(shù)向應(yīng)用、再向治理的遷移。

Hadoop及后來Spark等開源框架的問世對于大數(shù)據(jù)的發(fā)展具有重要意義,正是它們降低了數(shù)據(jù)存儲成本,讓大數(shù)據(jù)更易于使用。在隨后幾年里,大數(shù)據(jù)數(shù)量進一步呈爆炸式增長。時至今日,全世界的“用戶”——不僅有人,還有機器——仍在持續(xù)生成海量數(shù)據(jù)。

經(jīng)過多年來的發(fā)展和沉淀,人們對大數(shù)據(jù)已經(jīng)形成基本共識:大數(shù)據(jù)現(xiàn)象源于互聯(lián)網(wǎng)及其延伸所帶來的無處不在的信息技術(shù)應(yīng)用以及信息技術(shù)的不斷低成本化。大數(shù)據(jù)泛指無法在可容忍的時間內(nèi)用傳統(tǒng)信息技術(shù)和軟硬件工具對其進行獲取、管理和處理的巨量數(shù)據(jù)集合,具有海量性、多樣性、時效性及可變性等特征,需要可伸縮的計算體系結(jié)構(gòu)以支持其存儲、處理和分析。

大數(shù)據(jù)的價值本質(zhì)上體現(xiàn)為:提供了一種人類認識復(fù)雜系統(tǒng)的新思維和新手段。就理論而言,在足夠小的時間和空間尺度上,對現(xiàn)實世界數(shù)字化,可以構(gòu)造一個現(xiàn)實世界的數(shù)字虛擬映像,這個映像承載了現(xiàn)實世界的運行規(guī)律。在擁有充足的計算能力和高效的數(shù)據(jù)分析方法的前提下,對這個數(shù)字虛擬映像的深度分析,將有可能理解和發(fā)現(xiàn)現(xiàn)實復(fù)雜系統(tǒng)的運行行為、狀態(tài)和規(guī)律。應(yīng)該說大數(shù)據(jù)為人類提供了全新的思維方式和探知客觀規(guī)律、改造自然和社會的新手段,這也是大數(shù)據(jù)引發(fā)經(jīng)濟社會變革最根本性的原因。

如今,隨著物聯(lián)網(wǎng)(IoT)的興起,越來越多的設(shè)備接入了互聯(lián)網(wǎng),收集了大量的客戶使用模式和產(chǎn)品性能數(shù)據(jù)。同時,機器學習的出現(xiàn)也進一步加速了數(shù)據(jù)規(guī)模的增長。

然而,盡管已經(jīng)出現(xiàn)了很長一段時間,人們對大數(shù)據(jù)的利用才剛剛開始。今天,云計算進一步釋放了大數(shù)據(jù)的潛力,通過提供真正的彈性/可擴展性,它讓開發(fā)人員能夠輕松啟動Ad Hoc集群來測試數(shù)據(jù)子集。此外,圖形數(shù)據(jù)庫在大數(shù)據(jù)領(lǐng)域也變得越來越重要,它們能夠以獨特的形式展示大量數(shù)據(jù),幫助用戶更快速執(zhí)行更全面的分析。

當前大數(shù)據(jù)技術(shù)的研究發(fā)展狀況主要體現(xiàn)在基礎(chǔ)理論、關(guān)鍵技術(shù)、應(yīng)用實踐、數(shù)據(jù)安全四個方面。

在基礎(chǔ)理論方面,目前相關(guān)專家與研究人員尚未解決一些基本的理論問題。例如當前學界對于大數(shù)據(jù)技術(shù)的科學定義、結(jié)構(gòu)模型、數(shù)據(jù)理論體系等基本問題并未有確切的認識和判定標準,在數(shù)據(jù)質(zhì)量和數(shù)據(jù)計算效率的評估活動中,也缺乏一個統(tǒng)一的標準,這就直接造成了技術(shù)人員在數(shù)據(jù)質(zhì)量評價活動中工作效率低下的問題。

在關(guān)鍵技術(shù)研究方面,大數(shù)據(jù)格式的轉(zhuǎn)化、數(shù)據(jù)轉(zhuǎn)移和處理等技術(shù)問題是亟需處理的核心問題。由于大數(shù)據(jù)的異構(gòu)性和異質(zhì)性特征,因此提高大數(shù)據(jù)格式轉(zhuǎn)化的效率成為了增加大數(shù)據(jù)技術(shù)應(yīng)用價值的必經(jīng)途徑;而提升大數(shù)據(jù)計算能力的關(guān)鍵在于提高數(shù)據(jù)的轉(zhuǎn)移速率,這就要求技術(shù)人員要及時對大數(shù)據(jù)進行整合與處理。在大數(shù)據(jù)的處理中,數(shù)據(jù)的重組與錯誤數(shù)據(jù)的再利用都是有效提高大數(shù)據(jù)應(yīng)用價值的措施。

在應(yīng)用實踐研究方面,目前大數(shù)據(jù)在實際中的研究應(yīng)用主要體現(xiàn)為數(shù)據(jù)管理、數(shù)據(jù)搜索分析和數(shù)據(jù)集成。其中,數(shù)據(jù)管理主要用于大型互聯(lián)網(wǎng)數(shù)據(jù)庫和新型數(shù)據(jù)儲存模型與集成系統(tǒng)中;而數(shù)據(jù)搜索分析多用于模型社交網(wǎng)絡(luò)中;數(shù)據(jù)集成則通過將不同來源、不同作用的數(shù)據(jù)進行整合從而開發(fā)出整體數(shù)據(jù)庫新的功能,目前正處于研究發(fā)展的起始階段。最后,在數(shù)據(jù)安全方面,大數(shù)據(jù)技術(shù)的用戶隱私和數(shù)據(jù)質(zhì)量問題是當前數(shù)據(jù)安全研究工作的重點。

一方面,大數(shù)據(jù)技術(shù)下用戶隱私更容易被獲取,信息泄露風險更大;另一方面,大數(shù)據(jù)由于在準確性、冗余性、完整性等方面的偏差,數(shù)據(jù)質(zhì)量問題不可避免,因此我們亟需開發(fā)相應(yīng)的數(shù)據(jù)自動檢測修復(fù)系統(tǒng)。

1.4.2 大數(shù)據(jù)的發(fā)展現(xiàn)狀與趨勢

全球范圍內(nèi),研究發(fā)展大數(shù)據(jù)技術(shù)、運用大數(shù)據(jù)推動經(jīng)濟發(fā)展、完善社會治理、提升政府服務(wù)和監(jiān)管能力正成為趨勢。下面將從應(yīng)用、治理和技術(shù)三個方面對當前大數(shù)據(jù)的現(xiàn)狀與趨勢進行梳理。

(1)應(yīng)用

已有的眾多成功的大數(shù)據(jù)應(yīng)用,就其效果和深度而言,當前尚處于初級階段,根據(jù)大數(shù)據(jù)分析預(yù)測未來、指導(dǎo)實踐的深層次應(yīng)用將成為發(fā)展重點。

按照數(shù)據(jù)開發(fā)應(yīng)用深入程度的不同,我們可將大數(shù)據(jù)應(yīng)用分為三個層次。

第一層,描述性分析應(yīng)用,是指從大數(shù)據(jù)中總結(jié)、抽取相關(guān)的信息和知識,幫助人們分析發(fā)生了什么,并呈現(xiàn)事物的發(fā)展歷程。如美國的DOMO公司從其企業(yè)客戶的各個信息系統(tǒng)中抽取、整合數(shù)據(jù),再以統(tǒng)計圖表等可視化形式,將數(shù)據(jù)蘊含的信息推送給不同崗位的業(yè)務(wù)人員和管理者,幫助其更好地了解企業(yè)現(xiàn)狀,進而做出判斷和決策。

第二層,預(yù)測性分析應(yīng)用,是指從大數(shù)據(jù)中分析事物之間的關(guān)聯(lián)關(guān)系、發(fā)展模式等,并據(jù)此對事物發(fā)展的趨勢進行預(yù)測。如微軟公司紐約研究院研究員David Rothschild通過收集和分析賭博市場、好萊塢證券交易所、社交媒體用戶發(fā)布的帖子等大量公開數(shù)據(jù),建立預(yù)測模型,對多屆奧斯卡獎項的歸屬進行預(yù)測。2014年和2015年,均準確預(yù)測了奧斯卡24個獎項中的21個,準確率達87.5%。

第三層,指導(dǎo)性分析應(yīng)用,是指在前兩個層次的基礎(chǔ)上,分析不同決策將導(dǎo)致的后果,并對決策進行指導(dǎo)和優(yōu)化。如研究人員通過分析無人駕駛汽車的分析高精度地圖數(shù)據(jù)和海量的激光雷達、攝像頭等傳感器的實時感知數(shù)據(jù),對車輛不同駕駛行為的后果進行預(yù)判,并據(jù)此指導(dǎo)車輛的自動駕駛。

當前,在大數(shù)據(jù)應(yīng)用的實踐中,描述性、預(yù)測性分析應(yīng)用多,決策指導(dǎo)性等更深層次的分析應(yīng)用偏少。一般而言,人們做出決策的流程通常包括認知現(xiàn)狀、預(yù)測未來和選擇策略這三個基本步驟。這些步驟也對應(yīng)了上述大數(shù)據(jù)分析應(yīng)用的三個不同類型。不同類型的應(yīng)用意味著人類和計算機在決策流程中不同的分工和協(xié)作。

(2)治理

當前大數(shù)據(jù)治理體系遠未形成,特別是隱私保護、數(shù)據(jù)安全與數(shù)據(jù)共享利用效率之間尚存在明顯矛盾,這成為制約大數(shù)據(jù)發(fā)展的重要短板。社會各界已經(jīng)意識到構(gòu)建大數(shù)據(jù)治理體系的重要意義,相關(guān)的研究與實踐將持續(xù)加強。

隨著大數(shù)據(jù)作為戰(zhàn)略資源的地位日益凸顯,人們越來越強烈地意識到制約大數(shù)據(jù)發(fā)展最大的短板之一就是:數(shù)據(jù)治理體系遠未形成,如數(shù)據(jù)資產(chǎn)地位的確立尚未達成共識,數(shù)據(jù)的確權(quán)、流通和管控面臨多重挑戰(zhàn);數(shù)據(jù)壁壘廣泛存在,阻礙了數(shù)據(jù)的共享和開放;法律法規(guī)發(fā)展滯后,導(dǎo)致大數(shù)據(jù)應(yīng)用存在安全與隱私風險;等等。如此種種因素,制約了數(shù)據(jù)資源中所蘊含的價值的挖掘與轉(zhuǎn)化。

其中,隱私、安全與共享利用之間的矛盾問題尤為凸顯。一方面,數(shù)據(jù)共享開放的需求十分迫切。近年來人工智能應(yīng)用取得的重要進展,主要源于對海量、高質(zhì)量數(shù)據(jù)資源的分析和挖掘。而對于單一組織機構(gòu)而言,往往靠其自身的積累難以聚集足夠的高質(zhì)量數(shù)據(jù)。另外,大數(shù)據(jù)應(yīng)用的威力,在很多情況下源于對多源數(shù)據(jù)的綜合融合和深度分析,從而獲得從不同角度觀察、認知事物的全方位視圖。而單個系統(tǒng)、組織的數(shù)據(jù)往往僅包含事物某個片面、局部的信息,因此,只有通過共享開放和數(shù)據(jù)跨域流通才能建立信息完整的數(shù)據(jù)集。

另一方面,數(shù)據(jù)的無序流通與共享,又可能導(dǎo)致隱私保護和數(shù)據(jù)安全方面的重大風險,我們必須對其加以規(guī)范和限制。例如,鑒于互聯(lián)網(wǎng)公司頻發(fā)的、由于對個人數(shù)據(jù)的不正當使用而導(dǎo)致的隱私安全問題,歐盟制定了“史上最嚴格的”數(shù)據(jù)安全管理法規(guī)《通用數(shù)據(jù)保護條例》(General Data Protection Regulation,GDPR),并于2018年5月25日正式生效。該條例生效后,F(xiàn)acebook和谷歌等互聯(lián)網(wǎng)企業(yè)即被指控強迫用戶同意共享個人數(shù)據(jù)而面臨巨額罰款,并被推上輿論的風口浪尖。2019年,中央網(wǎng)信辦發(fā)布了《數(shù)據(jù)安全管理辦法(征求意見稿)》,向社會公開征求意見,明確了個人信息和重要數(shù)據(jù)的收集、處理、使用和安全監(jiān)督管理的相關(guān)標準和規(guī)范。相信這些法律法規(guī)將在促進數(shù)據(jù)的合規(guī)使用、保障個人隱私和數(shù)據(jù)安全等方面發(fā)揮不可或缺的重要作用。從體系化、確保一致性、避免碎片化考慮,制訂專門的數(shù)據(jù)安全法、個人信息保護法是必要的。然而,我們也應(yīng)看到,這些法律法規(guī)也將在客觀上不可避免地增加數(shù)據(jù)流通的成本、降低數(shù)據(jù)綜合利用的效率。如何兼顧發(fā)展和安全,平衡效率和風險,在保障安全的前提下,不因噎廢食,不對大數(shù)據(jù)價值的挖掘利用造成過分的負面影響,是當前全世界在數(shù)據(jù)治理中面臨的共同課題。

(3)技術(shù)

現(xiàn)有技術(shù)體系難以滿足大數(shù)據(jù)應(yīng)用的需求,大數(shù)據(jù)理論與技術(shù)遠未成熟,未來信息技術(shù)體系將會得到顛覆式的創(chuàng)新和變革。

近年來,數(shù)據(jù)規(guī)模呈幾何級數(shù)高速增長。據(jù)國際信息技術(shù)咨詢企業(yè)國際數(shù)據(jù)公司(IDC)的報告,2020年全球數(shù)據(jù)存儲量將達到44ZB,到2030年將達到2 500ZB。當前,需要處理的數(shù)據(jù)量已經(jīng)大大超過處理能力的上限,從而導(dǎo)致大量數(shù)據(jù)因無法或來不及處理,而處于未被利用、價值不明的狀態(tài),這些數(shù)據(jù)被稱為“暗數(shù)據(jù)”。國際商業(yè)機器公司(IBM)的研究報告估計,大多數(shù)企業(yè)僅對其所有數(shù)據(jù)的1%進行了分析應(yīng)用。

近年來,大數(shù)據(jù)獲取、存儲、管理、處理、分析等相關(guān)的技術(shù)已有顯著進展,但是大數(shù)據(jù)技術(shù)體系尚不完善,大數(shù)據(jù)基礎(chǔ)理論的研究仍處于萌芽期。

首先,大數(shù)據(jù)定義雖已達成初步共識,但許多本質(zhì)問題仍存在爭議,例如:數(shù)據(jù)驅(qū)動與規(guī)則驅(qū)動的對立統(tǒng)一、“關(guān)聯(lián)”與“因果”的辯證關(guān)系、“全數(shù)據(jù)”的時空相對性、分析模型的可解釋性與魯棒性等;其次,針對特定數(shù)據(jù)集和特定問題域已有不少專用解決方案,是否有可能形成“通用”或“領(lǐng)域通用”的統(tǒng)一技術(shù)體系,仍有待未來的技術(shù)發(fā)展給出答案;最后,應(yīng)用超前于理論和技術(shù)發(fā)展,數(shù)據(jù)分析的結(jié)論往往缺乏堅實的理論基礎(chǔ),對這些結(jié)論的使用仍需保持謹慎態(tài)度。

主站蜘蛛池模板: 清镇市| 温宿县| 桓台县| 潞西市| 临泉县| 专栏| 开鲁县| 徐州市| 文安县| 景泰县| 德州市| 甘德县| 梅河口市| 乡城县| 遂川县| 油尖旺区| 烟台市| 古丈县| 绥阳县| 吴桥县| 兰西县| 钟山县| 乌苏市| 绥滨县| 信阳市| 仲巴县| 宕昌县| 泗阳县| 昌乐县| 湖南省| 甘洛县| 开平市| 连云港市| 黑龙江省| 银川市| 辽阳县| 双江| 宣化县| 法库县| 龙里县| 边坝县|