官术网_书友最值得收藏!

第一節 大數據的發展過程、現狀和趨勢

所謂大數據,是與之前的小數據相對應而提出的概念,雖然大數據這個新生事物的發展時間不長,但是今天已經看到,所謂大數據絕不只是數據值或數據量大這么簡單,它所包含的豐富內涵及巨大潛能是之前的小數據無法比擬的。

一、大數據的定義和特征

迄今為止,對什么是大數據還沒有形成公認的定義。麥肯錫全球研究機構(McK-insey Global Institute)認為,大數據是指“大小超出典型數據庫工具收集、存儲、管理和分析能力的數據集”。維基百科(Wikipedia)認為,大數據為規模龐大、結構復雜,難以通過現有商業工具和技術在可容忍的時間內獲取、管理和處理的數據集。美國國家標準技術研究院(NIST)認為,大數據由具有規模巨大(Volume)、種類繁多(Variety)、增長速度快(Velocity)和變化多樣(Variability),且需要一個可擴展體系結構來有效存儲、處理和分析的廣泛的數據集組成。

高德納(Gartner)公司認為,大數據是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力。

國際數據公司(IDC)從大數據的特征上對大數據進行定義,認為大數據具有4V特征,即數據量大(Volume)、數據類型多(Variety)、產生速度快(Velocity)和價值大但價值密度低(Value)。具體解讀如下:

Volume,指數據量大。這是大數據的數量特征,即數據量大,無論采集、存儲和計算,數據量都非常大,是海量數據。數量級大小至少是PB(拍字節,1PB=1024TB, 1TB=1024GB)、EB(艾字節,1EB約等于100萬個TB)或ZB(澤字節,1ZB約等于10億個TB)。

Variety,指數據類型多。這是大數據的結構特征,即大數據來源多樣,數據類型多。除傳統的結構化數據外,更有非傳統的半結構化甚至是非結構化數據,如網絡日志、音頻、視頻、圖片、地理位置信息等。

Velocity,指數據產生速度快,數據的時效性強。這是大數據的時間特征,即大數據產生速度快,增長速度快,處理速度也快,數據處理的時效性要求高。如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法則盡可能要求實時推薦。

Value,指數據有價值,具體指大數據總體價值大但單體數據價值密度低,大數據價值又被比喻為新時代的石油、黃金、土地、鉆石礦,這是大數據的價值特征。由于價值密度低,對大數據的處理技術、工具和能力提出了更高的要求。大數據價值挖掘猶如大浪淘沙。如何結合業務邏輯并通過強大的機器算法挖掘數據價值,是大數據時代最需要解決的問題。

IBM提出大數據具有5V特性,即除上述4V外,還有真實(Veracity)的特性,即大數據是對客觀世界的真實記錄。真實(Veracity)是大數據的內容特征,是大數據的價值所在,是大數據具有大價值的前提。除此之外,還有人認為大數據具有3S特點:量大(Size)、迅速(Speed)、結構化(Structure);3I特點:定義不明確的(Ill-defined)、令人生畏的(Intimidating)、即時的(Immediate)。大數據具有“大”“雜”“全”“多”“快”“久”“活”“密”“稀”“聯”10字特征等??梢灶A見,隨著大數據技術的發展,對大數據本質特征及多面特征的認識會更加全面和深入。

大數據多面特征是大數據的必然表現。但從根本上講,大數據最基準的要求是數據量大小或數據規模的問題。目前比較公認的是,大數據是指數據量大小達PB(拍字節)數量級以上的數據。1PB=1024TB=250bit(B),約千萬億字節。

隨著大數據技術水平的發展,大數據的數量級標準還會進一步提高。比如,在PB(拍字節)數據級以上,還有EB(Exabyte,艾字節,1EB=1024PB=260B)、ZB(Zettabyte,澤字節,1ZB=1024EB=270B)、YB(Yottabyte,堯字節,1YB=1024ZB=280 B),再往上還有BB(Brontobyte)(290B)、NB(Nonabyte)(2100B)、DB(Doggabyte)(2110B)、CB(Corydonbyte)(2120B)、XB(Xerobyte)(2130B)、FB(2140B)、HB(2150 B)等。由此可見,大數據的大是相對概念,沒有最大,只有更大。

正由于大數據首先是海量數據,加上數量類型復雜、產生速度快、時效性強、價值密度低等特性,這才給數據的采集、清洗、存儲、管理、分析、挖掘等提出了新的要求,給數據價值的實現帶來了新的挑戰,而這也正是大數據時代的價值及意義所在。

二、大數據的發展過程

迄今為止,大數據的發展經歷了大數據醞釀階段(1997—2008年)、大數據誕生階段(2009—2012年)、大數據初級階段(2013年至今)。

(一)大數據醞釀階段(1997—2008年)

大數據一詞來源于英文Big Data。盡管近年來才受到人們的高度關注,但早在1980年,美國社會思想家阿爾文·托夫勒(Alvin Toffler)在《第三次浪潮》一書中就使用了“大數據”(Big Data)一詞,并稱頌它為“第三次浪潮的華彩樂章”。托夫勒在書中說道:“如果說IBM的主機拉開了信息化革命的大幕,那么‘大數據’才是第三次浪潮的華彩樂章?!?/p>

1997年10月,美國宇航局研究員邁克爾·考克斯和大衛·埃爾斯沃思在第八屆美國電氣和電子工程師協會(IEEE)關于可視化的會議上,首次使用“大數據”這一術語來描述20世紀90年代的挑戰:模擬飛機周圍的氣流是不能被處理和可視化的,其數據集相當大,超出了主存儲器、本地磁盤,甚至遠程磁盤的存儲容量。他們稱這個問題為“大數據”問題。

2001年2月,梅塔集團分析師道格·萊尼發布了一份研究報告《3D數據管理:控制數據容量、處理速度及數據種類》。10年后,報告中提到的3V作為大數據的三個主要特征而被廣泛接受。

2002年“9·11”襲擊后,美國政府為阻止恐怖主義,已經涉足大規模數據挖掘。前國家安全顧問約翰·波因德克斯特領導國防部整合現有政府的數據集,組建一個用于篩選通信、犯罪、教育、金融、醫療和旅行等記錄來識別可疑人員的大數據庫。一年后國會因擔憂公民自由權而停止了這一項目。2004年“9·11”委員會呼吁反恐機構應統一組建“一個基于網絡的信息共享系統”,以便快速處理應接不暇的數據。

2003年起,谷歌(Google)陸續發表了引爆大數據時代的三篇論文,主題為:Google File System(可擴展分布式文件系統)、MapReduce(大數據分布式計算方式)、BigTable(分布式數據存儲系統)。雖然谷歌沒有公布這三個產品的源碼,但是發布了這三個產品的詳細設計論文,這正是構建Hadoop系統架構的“三駕馬車”,由此奠定了風靡全球的大數據算法的基礎。

谷歌在2006年首先提出云計算的概念?!按髷祿痹谠朴嬎愠霈F之后凸顯其真正價值。2007—2008年,隨著社交網絡的激增,技術博客和專業人士為“大數據”概念注入新的生機?!爱斍笆澜绶秶鷥纫延械囊恍┢渌ぞ邔⒈淮罅繑祿蛻盟惴ㄋ〈?,《連線》的克里斯·安德森認為,當時處于一個“理論終結時代”。一些政府機構和美國的頂尖計算機科學家聲稱:“應該深入參與大數據計算的開發和部署工作,因為它將直接有利于許多任務的實現?!?/p>

2008年9月,Nature(《自然》)雜志推出了“Big Data:Science in the Petabyte Era”(大數據:PB時代的科學)的封面專欄,大數據(Big Data)引起人們的關注、爭論和傳播。

2008年末,“大數據”得到部分美國知名計算機科學研究人員的認可,計算社區聯盟(Computing Community Consortium)發表了一份有影響力的白皮書《大數據計算:在商務、科學和社會領域創建革命性突破》。它使人們的思維不僅局限于數據的計算機處理,而且提出大數據真正重要的是新用途和新見解,而非數據本身。該組織可以說是最早提出大數據概念的機構。

(二)大數據誕生階段(2009—2012年)

2009—2010年,“大數據”成為互聯網技術行業中的熱門詞匯。2009年印度建立了用于身份識別管理的生物識別數據庫;2009年聯合國全球脈沖項目研究了如何利用手機和社交網站的數據源來分析預測從螺旋價格到疾病爆發之類的問題。

2009年,美國政府Data.gov網站正式向所有公眾無須授權無差別開放,進一步開放了政府數據的大門,Data.gov網站向公眾提供各種各樣的超過4.45萬個政府數據集,這些數據被用于保證互聯網服務,如手機應用程序跟蹤從航班到產品召回再到特定區域內失業率的信息,這一行動激發了肯尼亞、英國等政府的類似舉措。同年,歐洲一些領先的研究型圖書館和科技信息研究機構建立了伙伴關系,致力于改善從互聯網上獲取科學數據的簡易性。

2010年2月,肯尼斯·庫克爾在《經濟學人》上發表《數據,無所不在的數據》大數據專題報告。庫克爾在報告中寫道:“世界上有著無法想象的巨量數字信息,并以極快的速度增長……從經濟界到科學界,從政府部門到藝術領域,很多地方都已感受到了這種巨量信息的影響。科學家和計算機工程師已經為這個現象創造了一個新詞匯:‘大數據’?!睅炜藸栆惨虼顺蔀樽钤缍匆姶髷祿r代趨勢的數據科學家之一。

2011年,IBM的沃森計算機系統在智力競賽節目《危險邊緣》中打敗了兩名人類挑戰者,《紐約時報》稱這一時刻為一個“大數據計算的勝利”。

2011年5月,全球知名咨詢公司麥肯錫(McKinsey Company)全球研究院(MGI)發布了一份報告《大數據:創新、競爭和生產力的下一個新領域》,第一次全方面地介紹和展望大數據。該報告指出,大數據已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一輪生產率增長和消費者盈余浪潮的到來,“大數據時代已經到來”。該報告還提到,“大數據”源于數據生產與收集的能力和速度大幅提升——由于越來越多的人、設備和傳感器通過數字網絡連接起來,產生、傳送、分享和訪問數據的能力也得到徹底變革。

2012年1月,在瑞士達沃斯召開的世界經濟論壇上,大數據是論壇的重要主題,論壇發布報告《大數據,大影響》(Big Data,Big Impact)宣稱,數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。

2012年3月,美國奧巴馬政府頒布了《大數據的研究和發展計劃》,這一計劃標志著大數據已經成為重要的時代特征。緊接著,英國發布了《英國數據能力發展戰略規劃》、日本發布了《創建最尖端IT國家宣言》、韓國提出了“大數據中心戰略”,其他國家也制定了相應的戰略和規劃。

2012年3月22日,奧巴馬政府宣布投資2億美元到大數據領域,大數據技術從商業行為上升到國家科技戰略,并在次日電話會議上把大數據定義為“未來的新石油”,大數據技術領域的競爭,事關國家安全和未來。國家層面的競爭力將部分體現為一國擁有數據的規模、活性以及解釋、運用的能力,國家數字主權體現對數據的占有和控制。數字主權將是繼邊防、海防、空防之后,另一個大國博弈的領域。

2012年4月19日,美國軟件公司Splunk在納斯達克成功上市,成為第一家上市的大數據處理公司,上市首日股票即暴漲了一倍多。Splunk成立于2003年,是一家領先的提供大數據監測和分析服務的軟件提供商。Splunk成功上市促進了資本市場對大數據的關注,同時也促使IT廠商加快大數據布局。

2012年7月,聯合國在紐約發布了一份關于大數據政務的白皮書,總結了各國政府如何更好地利用大數據服務和保護人民。同年7月,為挖掘大數據的價值,阿里巴巴集團在管理層設立“首席數據官”一職,負責全面推進“數據分享平臺”戰略,并推出大型的數據分享平臺“聚石塔”,為天貓、淘寶平臺上的電商及電商服務商等提供數據云服務,希望通過分享和挖掘海量數據,為客戶和企業提供價值。

隨著2012年維克托·路邁爾·舍恩伯格和肯尼斯·庫克耶的《大數據時代》一書的出版,大數據一詞越來越多地被提及,人們用它來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。數據正在迅速膨脹并變大,隨著時間的推移,人們將越來越意識到數據的重要性,大數據乘著互聯網的浪潮在各行各業中扮演著舉足輕重的角色,大數據決定著未來。

(三)大數據初級階段(2013年至今)

2013年被稱為中國的“大數據元年”。大數據概念因為互聯網和信息行業的發展引起人們的關注,這一年大數據開始在我國以勢不可當的姿態進入人們的思想意識,并在社會的各個領域探索與落地實踐。阿里巴巴2013年1月1日轉型重塑平臺、金融和數據三大業務,是最早提出通過數據進行企業數據化運營的企業。大數據掀起的變革,正在對現有的生產力和生產關系產生重要影響。

提到大數據不得不提貴州省貴陽市。2013年9月8日,貴陽市人民政府與中關村科技園區管理委員會在貴陽簽署戰略合作框架協議,雙方共同打造的“中關村貴陽科技園”揭牌,拉開了貴陽發展大數據的序幕。貴州省更是把大數據當作可以實現工業結構快速更新的“一號工程”。2014年2月,貴州省發布《大數據產業發展應用規劃綱要(2014—2020年)》,以大數據應用作為產業發展的戰略引領,通過改革、開放、創新,挖掘數據資源價值,集聚大數據技術成果,形成大數據企業集群,全面提升大數據產業發展支撐能力、大數據技術創新能力和大數據安全保障能力。努力建成全國領先的大數據資源集聚地和大數據應用服務示范基地,為經濟社會加速發展、加快轉型提供有力支撐。2014年3月,貴州省在北京宣布大數據產業啟航。2014年6月,貴州省政府成立貴州省大數據產業發展領導小組。

2014年3月,“大數據”首次出現在《2014年國務院政府工作報告》中?!?014年國務院政府工作報告》指出,要設立新興產業創業創新平臺,在大數據等方面趕超先進,引領未來產業發展。同年,國務院通過《企業信息公示暫行條例(草案)》要求在企業部門間建立互聯共享信息平臺,運用大數據等手段提升監管水平,“大數據”成為輿論熱詞。

2014年4月,以“大數據的回報與風險”為主題的世界經濟論壇發布了《全球信息技術報告(第13版)》,該報告認為,未來幾年針對各種信息通信技術的政策會顯得更加重要。5月,美國白宮發布了2014年全球“大數據”白皮書《大數據:抓住機遇、守護價值》,鼓勵使用數據全方位推動社會進步。

2015年9月,國務院正式發布《促進大數據發展行動綱要》推動大數據發展和應用。綱要明確,在未來5~10年,打造精準治理、多方協作的社會治理新模式,建立運行平穩、安全高效的經濟運行新機制,構建以人為本、惠及全民的民生服務新體系,開啟“大眾創業、萬眾創新”的創新驅動新格局,培育高端智能、新興繁榮的產業發展新生態。

2015年10月,黨的十八屆五中全會提出要實施“國家大數據戰略”,大數據第一次被寫入黨的全會決議。大數據正式上升為國家戰略。

2016年2月,經國家發展改革委、工業和信息化部、中央網信辦批復,同意貴州省建設首個國家大數據(貴州)綜合試驗區。2016年5月25日,中國大數據產業峰會暨中國電子商務創新發展峰會在貴陽開幕,國務院總理李克強出席開幕式并做了主旨演講。

2016年12月,《大數據產業發展規劃(2016—2020年)》與《軟件和信息技術服務業發展規劃(2016—2020年)》《信息通信行業發展規劃(2016—2020年)》相繼出臺。大數據首次出現在五年規劃體系的細分行業中,與電子信息產業與信息通信業規劃并行,這說明大數據越來越受到國家層面的重視。大數據將在穩增長、促改革、調結構、惠民生中扮演越來越重要的角色,在經濟社會發展中的基礎性、戰略性、先導性地位越來越突出。大數據將重構信息技術體系和產業格局,為我國信息技術產業的發展提供巨大機遇。

《大數據產業發展規劃(2016—2020年)》以強化大數據產業創新發展能力為核心,明確了強化大數據技術產品研發、深化工業大數據創新應用、促進行業大數據應用發展、加快大數據產業主體培育、推進大數據標準體系建設、完善大數據產業支撐體系、提升大數據安全保障能力等7項任務,提出大數據關鍵技術及產品研發與產業化工程、大數據服務能力提升工程等8項重點工程,研究制定了推進體制機制創新、健全相關政策法規制度、加大政策扶持力度、建設多層次人才隊伍、推動國際化發展等5項保障措施。根據該規劃,“十三五”期間,大數據相關產品和服務業務收入將突破1萬億元。

2017年,大數據市場全面打開,各省市積極響應中央號召,出臺多項政策扶持大數據,興建大數據產業和大數據中心,大數據行業呈現井噴式發展。京、津、滬、渝、冀、遼、貴、晉等省市政府相繼出臺了大數據研究與發展行動計劃,整合數據資源,實現區域數據中心資源匯集與集中建設。

2017年,在北京、上海、貴陽開展了大數據標準試點示范。全國至少已有13個省成立了21家大數據管理機構,已有35所本科院校獲批“數據科學與大數據技術”本科專業,62所??圃盒i_設“大數據技術與應用”??茖I,申報數據科學與大數據技術本科專業的院校達到293所。

《中國大數據發展調查報告(2018年)》顯示,2017年中國大數據產業總體規模為4700億元,同比增長30%。2017年大數據核心產業規模為236億元,增速達到40.5%,預計2018—2020年增速將保持在30%以上。

2018年,達沃斯世界經濟論壇等全球性重要會議都把“大數據”作為重要議題,許多國家政府對大數據產業發展有著高度的熱情。2018年,美國希望利用大數據技術實現科研、教學、環境保護、工程技術、國土安全、生物醫藥等多個領域的突破。歐盟在大數據方面的活動主要涉及四個方面:數據價值鏈戰略、開放數據創新、開放數據政策、科研數據使用等。

中共中央政治局2018年12月8日就實施國家大數據戰略進行第二次集體學習,習近平總書記在主持學習時強調,大數據發展日新月異,我們應該審時度勢、精心謀劃、超前布局、力爭主動,深入了解大數據發展現狀和趨勢及其對經濟社會發展的影響,分析我國大數據發展取得的成績和存在的問題,推動實施國家大數據戰略,加快完善數字基礎設施,推進數據資源整合和開放共享,保障數據安全,加快建設數字中國,更好地服務我國經濟社會發展和人民生活改善。

三、大數據的發展現狀

時至今日,大數據的發展仍處于初級階段。經過企業、政府、產業、社會的推廣,大數據發展浪潮席卷全球。全球各經濟社會系統采集、處理、積累的數據增長迅猛,大數據全產業市場規模逐步提升。大數據已滲透到每一個行業、業務、職能領域,成為重要的生產要素,大數據與數字經濟已成為各國重塑競爭優勢的共同選擇。

大數據所蘊含的戰略價值已經引起多數發達國家政府的重視,紛紛在國家層面進行戰略部署,實施大數據戰略,將開發利用大數據作為爭奪新一輪競爭制高點的重要舉措,以迎接大數據技術革命帶來的新機遇和新挑戰。各國相繼出臺大數據戰略規劃和配套法規促進大數據應用與發展,為大數據技術、產業發展提供有利條件。在各國政府大數據戰略部署和政策推動下,政府部門、企業、高校及研究機構都開始積極探索大數據應用。以美國為代表的發達國家在推進大數據上已經形成了從發展戰略、法律框架到行動計劃的完整布局。整體來說,與西方發達國家相比,亞洲大數據發展相對落后,在大數據發展過程中,更多的還處于探索及學習階段。

2019年5月12日,首屆天府大數據與數字經濟發展論壇發布《2018全球大數據發展分析報告》,稱2018年全球大數據市場總體價值約420億美元,其中大數據軟件市場價值約140億美元,大數據服務和硬件市場規模在經歷2016—2022年的快速增長后,將放緩增長趨勢,大數據軟件市場規模仍將保持10年的高速增長。在國家政府大數據開放建設方面,韓國、加拿大、美國等政府排名比較靠前。

該報告指出,以全球大數據發展情況為背景,中國政府數據共享開放正處于國家領導人高度重視、積極快速發展的階段。中國政府開放數據的實施路徑是由地方政府數據開放為起始,逐漸形成國家層面的數據開放。中國憑借近幾年“互聯網+”“大數據+”等融合創新,積累了豐富的數據資源,同時,大數據價值創造應用已經滲透到政務、零售、交通、醫療、教育、公共治理等各個領域,實現了良好的人口及產業規模效應。

2019年5月27日,以“創新發展,數說未來”為主題的2019年中國國際大數據產業博覽會發布了《大數據藍皮書:中國大數據發展報告No.3》,公布中國31個省份和重點城市的大數據發展指數評估,結果顯示,在省市排名中,位居前十的分別是北京、廣東、浙江、上海、貴州、江蘇、重慶、天津、山東和河北(見表1-1)。

表1-1 2018年全國31個省市大數據發展指數評估排名前10位結果

從全國來看,大數據發展逐步形成了以8個國家大數據綜合試驗區為引領,京津冀、長三角、珠三角、中西部地區4個集聚區域協同發展的格局。京津冀以北京為引領,天津、河北大數據發展處在全國中上游水平。珠三角以廣東居全國首位,周邊其他省份發展水平與廣東有較大差距。長三角整體發展水平普遍較高,上海、江蘇、浙江躋身全國第一集團。

《2018全球大數據發展分析報告》顯示,中國大數據技術創新能力有了顯著的提升。2015—2018年,大數據領域相關專利,美國、英國、韓國等整體數量處于領先地位,中國大數據專利數量的年均復合增長率達49.9%,2018年達到1萬個左右。從全球大數據領域相關技術專利數量比例看,中國從2015年的2%增長到2018年的38.5%,并呈現持續上升趨勢。

當前大數據解決方案主要表現在大數據技術、大數據工程、大數據科學和大數據應用等領域。人們談論最多的是大數據技術和大數據應用,大數據工程和大數據科學問題尚未被重視。大數據技術是新一代信息技術構架,它以較低數據存儲成本,以快速采集、處理和分析技術,從各種超大規模的數據中提取價值。大數據技術不斷涌現和發展,讓處理海量數據更加容易、更加便宜和迅速,成為利用數據的好助手,甚至可以改變許多行業的商業模式。大數據工程是大數據規劃建設、運營管理的系統工程。大數據科學關注大數據網絡發展和運營過程中大數據規律及其與自然和社會活動之間的關系。

大數據處理技術主要體現在六個環節上:

(1)大數據采集與預處理。最常見的問題是數據的多源性和多樣性,關鍵是多種數據清洗和質量控制工具,如IBM的Data Stage等。

(2)大數據存儲與管理。最常見挑戰是存儲規模大,存儲管理復雜,需要兼顧結構化、非結構化和半結構化數據。主要方法是分布式文件系統和分布式數據庫,大數據索引和查詢技術、實時及流式大數據存儲與處理。

(3)大數據計算模式。典型計算模式及工具有:大數據查詢分析計算如Hive、批處理計算如Hadoop MapReduce、流式計算如Storm、迭代計算如Hadoop、圖計算如Pregel、內存計算如Hana等,以及這些典型計算模式工具的混合計算模式。

(4)大數據分析與挖掘。即數據的深度分析和挖掘,并且是自動化分析。主要工具有R Hadoop、基于MapReduce的數據挖掘算法等。

(5)大數據可視化?;疽笫怯眯蜗蠛秃喢鞯姆绞絹硖剿骱徒忉審碗s數據,以利于決策者挖掘數據的商業價值,主要可視化工具如Tabealu等。

(6)大數據安全。通過加密保護、匿名化保護技術、基礎設備加密和訪問控制來限制數據的操作,保護大數據不受黑客攻擊,最大程度保護數據安全。

四、大數據的發展趨勢

未來,大數據將會在以下幾個方面發生改變:

一是大數據應用基礎條件發生跨越式變化。一方面,政府數據開放的廣度和深度將進一步拓寬,多源數據融合技術的進步,為公共服務數字化與智能化水平的提升提供了技術層面的保障,數據的標準化及開放則成為各國建設服務型政府和平臺型政府的資源保障。另一方面,大數據應用的基礎設施將成為與水電氣暖等相類似的設施,成為人們生活中必不可少的部分。其中包括:物聯網、智能硬件等數據采集類設施,5G、光通信等超高速數據傳輸類設施,超級計算機、云計算以及邊緣計算等計算類設施,以及新型的存儲設施等。

二是大數據與物聯網、人工智能、云計算、區塊鏈等關聯技術在各自領域內深化發展。深化發展或分化發展的主要表現是:

(1)數據庫能力提升。如谷歌的Spanner和亞馬遜的Redshift都體現了這種變化。數據庫能力增強,可以解決很多大數據問題。

(2)機器學習繼續成為大數據智能分析的核心技術。

(3)邊緣計算快速發展,量子計算進一步發展,大數據分析方法有望取得革命性突破。大數據平臺更強調實時性,流計算變得非常重要。

(4)語音識別、視頻分析挖掘技術獲得突破,從實驗室走向市場,進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。

(5)基于區塊鏈技術的大數據應用場景漸漸豐富。區塊鏈是分布式數據存儲、點對點傳輸、共識機制、加密算法等計算機技術的新型應用模式。所謂共識機制,是區塊鏈系統中不同節點之間建立信任、獲取權益的數學算法。

(6)大數據的安全和隱私保護成為研究和應用的熱點。

三是大數據與物聯網、人工智能、云計算、區塊鏈等關聯領域在各自發展的同時將日趨融合與高度融合,即所謂的數據匯流,這成為各國搶抓未來發展機遇的戰略性技術。數據匯流或技術融合的典型表現為:

(1)數據科學帶動多學科融合,基礎理論研究受到重視,但相當長時期內突破不大。

(2)機器人、無人機和自動駕駛等自主設備進一步發展。

(3)沉浸式體驗。虛擬現實技術是一種可以創建和體驗虛擬世界的計算機仿真系統。虛擬現實(VR)、增強現實(AR)和混合現實(MR)技術的運用,使用戶沉浸到多源信息融合的、交互式的三維動態視景與實體行為的環境中。

(4)智慧城市或智慧社會。智慧城市就是運用大數據、物聯網、云計算等新一代信息技術觀測、分析、整合城市運行核心系統的各項關鍵信息,對包括民生、環保、公共安全、城市服務、工商業活動在內的各種需求做出智能響應,為城市中的人創造更美好的生活,促進城市和諧與可持續發展。

四是大數據推動科技領域發展。大數據成為各行各業的底層共性技術,不僅體現在互聯網領域,也體現在金融、教育、醫療等諸多領域。在人工智能研發領域,尤其在機器學習、計算機視覺和自然語言處理等方面,大數據正在成為智能化社會的基礎。

五是大數據產業鏈逐漸形成。經過近幾年的發展,大數據已經初步形成了一個較為完整的產業鏈,包括數據采集、整理、傳輸、存儲、分析、呈現和應用,眾多企業開始參與到大數據產業鏈中,并形成一定的產業規模。相信隨著大數據的不斷發展,相關產業規模會進一步擴大。

六是產業互聯網將推動大數據落地。當前,互聯網正從消費互聯網向產業互聯網過渡,產業互聯網將利用大數據、物聯網、人工智能等技術來賦能廣大的傳統產業,可以說產業互聯網的發展空間非常大,而大數據則是產業互聯網發展的一個重點。

七是大數據資源對各國經濟政治博弈的重要性更加凸顯。美國最新版國家安全戰略中,特朗普再次將“數據”比喻為一種能源,他認為掌握了數據及相關能力,就是為美國經濟的持續增長、有效抵制敵對意識形態以及部署建設最強大軍事力量等構建了基礎保障。

八是大數據安全為各國實現平衡發展帶來了更嚴峻的挑戰。各國大數據發展戰略中,不同國家和地區對“數據開放共享”與“個人信息保護”的側重點不同,比如歐盟希望通過強制性的統一標準最大限度地保護個人隱私,而美國相對淡化法律的強制約束,更希望調動企業的主動性與自覺性,這種態勢為未來全球大數據國際規則的融合發展提出了新難題。同時對大數據企業權利和義務也要進行再平衡,監管太嚴,將限制企業創新的腳步,但如果放得太寬,在實踐中難免又會出現企業對個人隱私大規模侵害的問題。

九是中國大數據產業將迎來高速增長期,產業規模快速增長、市場競爭日趨激烈、大數據應用日益深入、投融資環境愈加完善等。前瞻產業研究院發布的《中國大數據產業發展前景與投資戰略規劃分析報告》統計數據顯示,2020年我國大數據產業規模增長將突破萬億元,達到10100億元,同比增長26.3%。我國大數據產業正在從起步階段步入黃金期,2020年中國有望成為世界第一數據資源大國。

五、大數據發展面臨的挑戰和存在的問題

我國發展大數據當前還面臨下列挑戰和問題:

挑戰一:數據開放度低,信息孤島、數據壁壘情況嚴重,數據整合能力不足。尤其是政府數據不能進行互聯互通,大數據共享還差強人意。數據缺少規范和標準,給數據的采集、對接、共享、開發、利用帶來困難。

當前,國內經濟社會大數據領域比較離散,政府部門之間、企業之間、政府和企業之間由于信息不對稱、制度法律不健全、共享渠道缺乏等,導致大量數據存在“不愿開放、不敢開放、不能開放、不會開放”的問題,造就了一個個企業和政府管理部門的數據孤島,以致無法構建全景的大數據。

挑戰二:技術應用創新滯后。我國在新型計算平臺、分布式計算架構及大數據處理、分析和呈現方面與國外仍存在較大差距,對開源技術和相關生態系統影響力弱。

挑戰三:行業應用不深入,大數據應用水平不高。我國發展大數據具有強勁的應用市場優勢,但是目前還存在應用領域不廣泛、應用程度不深、認識不到位等問題。互聯網、金融和電信三大領域大數據應用占比超過70%,健康醫療領域和交通領域雖然近年不斷開發新應用,但行業規模占比仍相對較小,而在其他眾多民生領域,大數據應用仍處于淺層次信息化層面,行業發展水平參差不齊。

挑戰四:大數據很多時候還停留在表面空談狀態,很多領域都沒有很好地運用大數據來解決問題。目前中國的大數據發展很快,國家也提倡發展大數據。然而,很多商業行為將大數據運用得爐火純青,而在民生方面,政府職能部門對大數據缺乏深入的認識和運用。

隨著科技的發展,未來中國要邁向更高的科學技術領域無法離開大數據的建設和發展,只有把大數據的基礎和應用領域建設好,中國未來才會和發達國家并駕齊驅,使科技向高精尖方向發展。

挑戰五:大數據人才及相關人才缺失。一方面,人才不足限制了大數據產業創新發展的成效。據相關數據披露,未來3~5年中國需要180萬大數據人才,但截至目前中國大數據從業人員只有30萬左右。另一方面,大數據行業選才的標準也在不斷變化,人才跟不上時代的步伐。

在人才培養方面也是如此。結構性、復合型人才的缺乏是制約我國大數據產業發展的重要因素之一。包括與大數據相關的云計算、人工智能、物聯網等,同樣缺乏專業性的人才。雖然政府也在努力,在高校中增加相關專業課程,但是只有市場驅動才能真正帶動人才往大數據方面聚集。

最后,現在成功的大數據解決方案不只是要實現某一方面的技術(如Hadoop等),而且需要把一連串的技術、人和流程糅合到一起,要捕捉數據、存儲數據、清洗數據、查詢數據、分析數據并對數據進行可視化。這些工作一部分可以由工具來完成,而有的則需要人來做,關鍵是這一切都需要無縫集成,使之成為一個閉環、優化、可擴、開放的系統整體。這還只是產品環節,最終要想讓大數據系統發揮作用,整個行業系統從上到下都需要樹立數據驅動的文化,這樣大數據才不僅僅是個產品工具,而且是那個最關鍵的產品工具。

主站蜘蛛池模板: 通化市| 蓝田县| 大城县| 精河县| 乌鲁木齐县| 孟津县| 福泉市| 普格县| 余庆县| 丰顺县| 崇左市| 张家港市| 寿阳县| 秦安县| 阿克苏市| 金秀| 江阴市| 湟中县| 凌源市| 石渠县| 运城市| 阳高县| 潍坊市| 同德县| 河东区| 武清区| 芮城县| 巴林左旗| 江安县| 绥德县| 泸州市| 革吉县| 玛多县| 泸西县| 崇信县| 太保市| 府谷县| 新龙县| 隆子县| 重庆市| 封丘县|