官术网_书友最值得收藏!

1.4 大數據技術的發展現狀與趨勢

1.4.1 大數據的產生

從文明之初的“結繩記事”,到文字發明后的“文以載道”,再到近現代科學的“數據建模”,數據一直伴隨著人類社會的發展變遷,承載了人類基于數據和信息認識世界的努力和取得的巨大進步。然而,直到以電子計算機為代表的現代信息技術出現,為數據處理提供了有效方法和手段后,人類掌握數據、處理數據的能力才實現了質的躍升。信息技術及其在經濟社會發展方方面面的應用(即信息化),推動數據(信息)成為繼物質、能源之后的又一種重要戰略資源。

雖然大數據這個概念是最近才提出的,但大型數據集的起源卻可追溯至20世紀60年代。當時數據世界正處于萌芽階段,全球第一批數據中心和首個關系數據庫便是在那個時代出現的。

“大數據”作為一種概念和思潮由計算領域發端,之后逐漸延伸到科學和商業領域。大多數學者認為,“大數據”這一概念最早公開出現于1998年。美國高性能計算公司SGI的首席科學家約翰·馬西(John Mashey)在一個國際會議報告中指出,隨著數據量的快速增長,必將出現數據難理解、難獲取、難處理和難組織四個難題。用“big data(大數據)”來描述這一挑戰,在計算領域引發思考。

2005年左右,人們開始意識到用戶在使用Facebook、YouTube以及其他在線服務時生成了海量數據。同一年,專為存儲和分析大型數據集而開發的開源框架Hadoop問世,NoSQL也在同一時期開始慢慢普及開來。

2007年,數據庫領域的先驅人物吉姆·格雷(Jim Gray)指出大數據將成為人類觸摸、理解和逼近現實復雜系統的有效途徑,并認為在實驗觀測、理論推導和計算仿真三種科學研究范式后,將迎來第四范式——“數據探索”,后來同行學者將其總結為“數據密集型科學發現”,開啟了從科研視角審視大數據的熱潮。

2012年,牛津大學教授維克托·邁爾-舍恩伯格(Viktor Mayer-Schnberger)在其暢銷著作《大數據時代》(Big Data:A Revolution That Will Transform How We Live,Work and Think)中指出,數據分析將從“隨機采樣”“精確求解”和“強調因果”的傳統模式演變為大數據時代的“全體數據”“近似求解”和“只看關聯不問因果”的新模式,從而引發商業應用領域對大數據方法的廣泛思考與探討。

大數據于2012年、2013年達到宣傳高潮,2014年后大數據概念體系逐漸成形,人們對其的認知亦趨于理性。大數據相關技術、產品、應用和標準不斷發展,逐漸形成了由數據資源與API、開源平臺與工具、數據基礎設施、數據分析、數據應用等板塊構成的大數據生態系統,并持續發展和不斷完善。其發展過程呈現了從技術向應用、再向治理的遷移。

Hadoop及后來Spark等開源框架的問世對于大數據的發展具有重要意義,正是它們降低了數據存儲成本,讓大數據更易于使用。在隨后幾年里,大數據數量進一步呈爆炸式增長。時至今日,全世界的“用戶”——不僅有人,還有機器——仍在持續生成海量數據。

經過多年來的發展和沉淀,人們對大數據已經形成基本共識:大數據現象源于互聯網及其延伸所帶來的無處不在的信息技術應用以及信息技術的不斷低成本化。大數據泛指無法在可容忍的時間內用傳統信息技術和軟硬件工具對其進行獲取、管理和處理的巨量數據集合,具有海量性、多樣性、時效性及可變性等特征,需要可伸縮的計算體系結構以支持其存儲、處理和分析。

大數據的價值本質上體現為:提供了一種人類認識復雜系統的新思維和新手段。就理論而言,在足夠小的時間和空間尺度上,對現實世界數字化,可以構造一個現實世界的數字虛擬映像,這個映像承載了現實世界的運行規律。在擁有充足的計算能力和高效的數據分析方法的前提下,對這個數字虛擬映像的深度分析,將有可能理解和發現現實復雜系統的運行行為、狀態和規律。應該說大數據為人類提供了全新的思維方式和探知客觀規律、改造自然和社會的新手段,這也是大數據引發經濟社會變革最根本性的原因。

如今,隨著物聯網(IoT)的興起,越來越多的設備接入了互聯網,收集了大量的客戶使用模式和產品性能數據。同時,機器學習的出現也進一步加速了數據規模的增長。

然而,盡管已經出現了很長一段時間,人們對大數據的利用才剛剛開始。今天,云計算進一步釋放了大數據的潛力,通過提供真正的彈性/可擴展性,它讓開發人員能夠輕松啟動Ad Hoc集群來測試數據子集。此外,圖形數據庫在大數據領域也變得越來越重要,它們能夠以獨特的形式展示大量數據,幫助用戶更快速執行更全面的分析。

當前大數據技術的研究發展狀況主要體現在基礎理論、關鍵技術、應用實踐、數據安全四個方面。

在基礎理論方面,目前相關專家與研究人員尚未解決一些基本的理論問題。例如當前學界對于大數據技術的科學定義、結構模型、數據理論體系等基本問題并未有確切的認識和判定標準,在數據質量和數據計算效率的評估活動中,也缺乏一個統一的標準,這就直接造成了技術人員在數據質量評價活動中工作效率低下的問題。

在關鍵技術研究方面,大數據格式的轉化、數據轉移和處理等技術問題是亟需處理的核心問題。由于大數據的異構性和異質性特征,因此提高大數據格式轉化的效率成為了增加大數據技術應用價值的必經途徑;而提升大數據計算能力的關鍵在于提高數據的轉移速率,這就要求技術人員要及時對大數據進行整合與處理。在大數據的處理中,數據的重組與錯誤數據的再利用都是有效提高大數據應用價值的措施。

在應用實踐研究方面,目前大數據在實際中的研究應用主要體現為數據管理、數據搜索分析和數據集成。其中,數據管理主要用于大型互聯網數據庫和新型數據儲存模型與集成系統中;而數據搜索分析多用于模型社交網絡中;數據集成則通過將不同來源、不同作用的數據進行整合從而開發出整體數據庫新的功能,目前正處于研究發展的起始階段。最后,在數據安全方面,大數據技術的用戶隱私和數據質量問題是當前數據安全研究工作的重點。

一方面,大數據技術下用戶隱私更容易被獲取,信息泄露風險更大;另一方面,大數據由于在準確性、冗余性、完整性等方面的偏差,數據質量問題不可避免,因此我們亟需開發相應的數據自動檢測修復系統。

1.4.2 大數據的發展現狀與趨勢

全球范圍內,研究發展大數據技術、運用大數據推動經濟發展、完善社會治理、提升政府服務和監管能力正成為趨勢。下面將從應用、治理和技術三個方面對當前大數據的現狀與趨勢進行梳理。

(1)應用

已有的眾多成功的大數據應用,就其效果和深度而言,當前尚處于初級階段,根據大數據分析預測未來、指導實踐的深層次應用將成為發展重點。

按照數據開發應用深入程度的不同,我們可將大數據應用分為三個層次。

第一層,描述性分析應用,是指從大數據中總結、抽取相關的信息和知識,幫助人們分析發生了什么,并呈現事物的發展歷程。如美國的DOMO公司從其企業客戶的各個信息系統中抽取、整合數據,再以統計圖表等可視化形式,將數據蘊含的信息推送給不同崗位的業務人員和管理者,幫助其更好地了解企業現狀,進而做出判斷和決策。

第二層,預測性分析應用,是指從大數據中分析事物之間的關聯關系、發展模式等,并據此對事物發展的趨勢進行預測。如微軟公司紐約研究院研究員David Rothschild通過收集和分析賭博市場、好萊塢證券交易所、社交媒體用戶發布的帖子等大量公開數據,建立預測模型,對多屆奧斯卡獎項的歸屬進行預測。2014年和2015年,均準確預測了奧斯卡24個獎項中的21個,準確率達87.5%。

第三層,指導性分析應用,是指在前兩個層次的基礎上,分析不同決策將導致的后果,并對決策進行指導和優化。如研究人員通過分析無人駕駛汽車的分析高精度地圖數據和海量的激光雷達、攝像頭等傳感器的實時感知數據,對車輛不同駕駛行為的后果進行預判,并據此指導車輛的自動駕駛。

當前,在大數據應用的實踐中,描述性、預測性分析應用多,決策指導性等更深層次的分析應用偏少。一般而言,人們做出決策的流程通常包括認知現狀、預測未來和選擇策略這三個基本步驟。這些步驟也對應了上述大數據分析應用的三個不同類型。不同類型的應用意味著人類和計算機在決策流程中不同的分工和協作。

(2)治理

當前大數據治理體系遠未形成,特別是隱私保護、數據安全與數據共享利用效率之間尚存在明顯矛盾,這成為制約大數據發展的重要短板。社會各界已經意識到構建大數據治理體系的重要意義,相關的研究與實踐將持續加強。

隨著大數據作為戰略資源的地位日益凸顯,人們越來越強烈地意識到制約大數據發展最大的短板之一就是:數據治理體系遠未形成,如數據資產地位的確立尚未達成共識,數據的確權、流通和管控面臨多重挑戰;數據壁壘廣泛存在,阻礙了數據的共享和開放;法律法規發展滯后,導致大數據應用存在安全與隱私風險;等等。如此種種因素,制約了數據資源中所蘊含的價值的挖掘與轉化。

其中,隱私、安全與共享利用之間的矛盾問題尤為凸顯。一方面,數據共享開放的需求十分迫切。近年來人工智能應用取得的重要進展,主要源于對海量、高質量數據資源的分析和挖掘。而對于單一組織機構而言,往往靠其自身的積累難以聚集足夠的高質量數據。另外,大數據應用的威力,在很多情況下源于對多源數據的綜合融合和深度分析,從而獲得從不同角度觀察、認知事物的全方位視圖。而單個系統、組織的數據往往僅包含事物某個片面、局部的信息,因此,只有通過共享開放和數據跨域流通才能建立信息完整的數據集。

另一方面,數據的無序流通與共享,又可能導致隱私保護和數據安全方面的重大風險,我們必須對其加以規范和限制。例如,鑒于互聯網公司頻發的、由于對個人數據的不正當使用而導致的隱私安全問題,歐盟制定了“史上最嚴格的”數據安全管理法規《通用數據保護條例》(General Data Protection Regulation,GDPR),并于2018年5月25日正式生效。該條例生效后,Facebook和谷歌等互聯網企業即被指控強迫用戶同意共享個人數據而面臨巨額罰款,并被推上輿論的風口浪尖。2019年,中央網信辦發布了《數據安全管理辦法(征求意見稿)》,向社會公開征求意見,明確了個人信息和重要數據的收集、處理、使用和安全監督管理的相關標準和規范。相信這些法律法規將在促進數據的合規使用、保障個人隱私和數據安全等方面發揮不可或缺的重要作用。從體系化、確保一致性、避免碎片化考慮,制訂專門的數據安全法、個人信息保護法是必要的。然而,我們也應看到,這些法律法規也將在客觀上不可避免地增加數據流通的成本、降低數據綜合利用的效率。如何兼顧發展和安全,平衡效率和風險,在保障安全的前提下,不因噎廢食,不對大數據價值的挖掘利用造成過分的負面影響,是當前全世界在數據治理中面臨的共同課題。

(3)技術

現有技術體系難以滿足大數據應用的需求,大數據理論與技術遠未成熟,未來信息技術體系將會得到顛覆式的創新和變革。

近年來,數據規模呈幾何級數高速增長。據國際信息技術咨詢企業國際數據公司(IDC)的報告,2020年全球數據存儲量將達到44ZB,到2030年將達到2 500ZB。當前,需要處理的數據量已經大大超過處理能力的上限,從而導致大量數據因無法或來不及處理,而處于未被利用、價值不明的狀態,這些數據被稱為“暗數據”。國際商業機器公司(IBM)的研究報告估計,大多數企業僅對其所有數據的1%進行了分析應用。

近年來,大數據獲取、存儲、管理、處理、分析等相關的技術已有顯著進展,但是大數據技術體系尚不完善,大數據基礎理論的研究仍處于萌芽期。

首先,大數據定義雖已達成初步共識,但許多本質問題仍存在爭議,例如:數據驅動與規則驅動的對立統一、“關聯”與“因果”的辯證關系、“全數據”的時空相對性、分析模型的可解釋性與魯棒性等;其次,針對特定數據集和特定問題域已有不少專用解決方案,是否有可能形成“通用”或“領域通用”的統一技術體系,仍有待未來的技術發展給出答案;最后,應用超前于理論和技術發展,數據分析的結論往往缺乏堅實的理論基礎,對這些結論的使用仍需保持謹慎態度。

主站蜘蛛池模板: 马关县| 博客| 舞钢市| 甘谷县| 上蔡县| 永寿县| 林西县| 平远县| 行唐县| 固始县| 郸城县| 军事| 连江县| 汶川县| 佛坪县| 日喀则市| 勃利县| 上饶县| 上高县| 永康市| 阿城市| 宁夏| 耒阳市| 新化县| 霍山县| 桐城市| 印江| 句容市| 沙河市| 桂东县| 长治市| 梓潼县| 通山县| 南木林县| 山东省| 忻城县| 青海省| 龙江县| 井研县| 大庆市| 金堂县|