- 多源信息協(xié)同:城市和區(qū)域級大數(shù)據(jù)的應(yīng)用與演進(jìn)
- 賈曉豐
- 9353字
- 2021-03-19 19:19:16
1.3 大數(shù)據(jù)決策:大數(shù)據(jù)時代的大變革
人、機(jī)、物三元世界的高度融合引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復(fù)雜化,特別是Web 2.0、傳感器、視頻監(jiān)控等的應(yīng)用,使得數(shù)據(jù)量以前所未有的態(tài)勢迅猛增長,世界已進(jìn)入網(wǎng)絡(luò)化的大數(shù)據(jù)(Big Data)時代。大數(shù)據(jù)帶給世界一個全新的解決問題的方法,將成為引領(lǐng)社會變革、推動政府職能轉(zhuǎn)型、激發(fā)企業(yè)技術(shù)創(chuàng)新的利器。在這個技術(shù)浪潮到來之際,如何應(yīng)時而變是每一個決策主體(組織或者個人)所必須認(rèn)真面對的問題。
1.3.1 大數(shù)據(jù)時代的戰(zhàn)略訴求
1.大數(shù)據(jù)從商業(yè)行為上升到國家戰(zhàn)略
大數(shù)據(jù)的應(yīng)用最初在互聯(lián)網(wǎng)技術(shù)和商業(yè)模式發(fā)展中嶄露頭角,商業(yè)活動的每一個環(huán)節(jié)都建立在數(shù)據(jù)收集、分析和行動的能力之上。IDC和麥肯錫的大數(shù)據(jù)研究顯示,大數(shù)據(jù)主要在四個方面帶來了巨大的商業(yè)價值:一是對顧客群體的細(xì)分;二是運用大數(shù)據(jù)模擬實境,發(fā)掘新的需求和提高投入回報率;三是提高大數(shù)據(jù)成果在各部門間的分享程度,提高企業(yè)的整體管理鏈條和產(chǎn)業(yè)鏈條的投入回報率;四是進(jìn)行商業(yè)模式、產(chǎn)品和服務(wù)的創(chuàng)新。
2010年,英國卡梅倫政府提出“數(shù)據(jù)權(quán)”(Right to Data)的概念,將其作為信息時代向全社會普及的公民基本權(quán)利之一。美國奧巴馬政府提出“開放戰(zhàn)略”,將數(shù)據(jù)開放作為政府、經(jīng)濟(jì)和社會開放的根本動力。這些概念和行動綱領(lǐng)的提出,標(biāo)志著數(shù)據(jù)的定位正在逐漸從商業(yè)領(lǐng)域走進(jìn)各國政府的戰(zhàn)略核心。
2012年3月,美國政府投資2億美元啟動“大數(shù)據(jù)研究和發(fā)展計劃”,通過提高從大型復(fù)雜的數(shù)據(jù)集中提取知識和觀點的能力,加快在科學(xué)與工程中前進(jìn)的步伐,加強(qiáng)國家安全,推進(jìn)科學(xué)發(fā)現(xiàn)和創(chuàng)新研究。這個計劃的發(fā)布正式將大數(shù)據(jù)技術(shù)從商業(yè)行為上升到了國家戰(zhàn)略。這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國政府將大數(shù)據(jù)比作“未來的新石油”,將“大數(shù)據(jù)研究”首次上升為國家意志。
聯(lián)合國2012年在紐約總部發(fā)布了一份大數(shù)據(jù)政務(wù)白皮書,指出大數(shù)據(jù)時代已經(jīng)到來,希望各國使用極大豐富的數(shù)據(jù)資源來更好地服務(wù)和保護(hù)人民。
2013年,英國商業(yè)、創(chuàng)新和技能部宣布,將注資1.89億英鎊研發(fā)大數(shù)據(jù)技術(shù),將在基礎(chǔ)設(shè)施方面投入巨資,加強(qiáng)數(shù)據(jù)采集和分析,從而讓英國在“數(shù)據(jù)革命”中占得先機(jī)。2013年的八國峰會(G8 Summit),簽署了《八國集團(tuán)開放數(shù)據(jù)憲章》(G8 Open Data Charter),明確了開放數(shù)據(jù)的5大原則和14個重點開放領(lǐng)域,其主要宗旨是推動政府更好地向公眾開放數(shù)據(jù),挖掘政府擁有的公共數(shù)據(jù)的經(jīng)濟(jì)潛力,促進(jìn)經(jīng)濟(jì)增長,激發(fā)創(chuàng)新,并加強(qiáng)責(zé)任感。
2015年9月,我國國務(wù)院正式發(fā)布《國務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動綱要的通知》(國發(fā)〔2015〕50號),成為我國促進(jìn)大數(shù)據(jù)發(fā)展的第一份權(quán)威性、系統(tǒng)性的文件。該文件從國家大數(shù)據(jù)發(fā)展戰(zhàn)略全局的高度,提出了我國大數(shù)據(jù)發(fā)展的頂層設(shè)計,是指導(dǎo)我國未來大數(shù)據(jù)發(fā)展的綱領(lǐng)性文件,其核心是推動各部門、各地區(qū)、各行業(yè)、各領(lǐng)域的數(shù)據(jù)資源共享開放。中國和美國政府的大數(shù)據(jù)戰(zhàn)略比較詳見本書附錄A。
大數(shù)據(jù)帶來了深刻的社會變革,能夠顯著提升政府效率、透明度和服務(wù)水平。美國國家安全局(NSA)利用大數(shù)據(jù)分析來對抗恐怖主義活動,軍方利用大數(shù)據(jù)搜查到拉登的蛛絲馬跡,從而將其擊斃。政府和社會數(shù)據(jù)的深度利用,有利于透明化與民主監(jiān)督,增強(qiáng)公民參與意識,推動自我賦權(quán)(self-empowerment),改進(jìn)政府服務(wù)效率和水平,加強(qiáng)政策影響力評估,推動產(chǎn)生新知識,改進(jìn)或創(chuàng)新產(chǎn)品和服務(wù)等。
大數(shù)據(jù)驅(qū)動下的信息產(chǎn)業(yè)日漸成為關(guān)系國民經(jīng)濟(jì)和社會發(fā)展全局的戰(zhàn)略性、先導(dǎo)性產(chǎn)業(yè)。擁有數(shù)據(jù)的規(guī)模和質(zhì)量以及對數(shù)據(jù)的控制和運用能力,將直接決定一個國家的核心競爭力。大數(shù)據(jù)像土地、石油和資本一樣成為經(jīng)濟(jì)、社會運行中的根本性資源,國家的數(shù)據(jù)主權(quán)將是繼海、陸、空、天、網(wǎng)之后另一個大國博弈的空間。
面對各國政府紛紛出臺政策推動大數(shù)據(jù)發(fā)展,我國也積極應(yīng)對,在多個科技項目中進(jìn)行了重點支持。如2011年“核高基”科技重大專項將非結(jié)構(gòu)化數(shù)據(jù)管理作為需要突破的關(guān)鍵技術(shù)加以重點支持;2012年12月國家發(fā)展改革委員會將“數(shù)據(jù)分析軟件開發(fā)和服務(wù)”列入專項指南;2013年大數(shù)據(jù)被科技部列入“973基礎(chǔ)研究計劃”和國家自然科學(xué)基金指南中;2014年,科技部啟動了“大數(shù)據(jù)計算”重點基礎(chǔ)研究發(fā)展計劃,國家自然科學(xué)基金委員會也啟動了大數(shù)據(jù)重點項目群。
2.大數(shù)據(jù)從數(shù)據(jù)資產(chǎn)轉(zhuǎn)變?yōu)閼?zhàn)略資源
相比傳統(tǒng)的海量數(shù)據(jù),大數(shù)據(jù)從TB級別躍升到PB甚至EB級別,在量級上有了更大的提升。除了體量巨大之外,大數(shù)據(jù)還具有三個海量數(shù)據(jù)所不具備的特點:第一,數(shù)據(jù)類型多,音頻、視頻、圖片、GPS等各類數(shù)據(jù)廣泛匯集;第二,價值密度低,如連續(xù)不間斷的視頻監(jiān)控過程中,可能僅有幾秒的數(shù)據(jù)是有價值的;第三,處理速度快,這與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
人類從工業(yè)時代進(jìn)入信息時代的一個顯著特征,即數(shù)據(jù)成為政府、企業(yè)和個人的重要無形資產(chǎn),與固定資產(chǎn)共同成為生產(chǎn)過程中的基本要素。隨著大數(shù)據(jù)時代的到來,由于數(shù)據(jù)量級的指數(shù)型增長及其本身蘊(yùn)含的巨大挖掘價值,大數(shù)據(jù)的定位已不僅僅是傳統(tǒng)意義上的數(shù)據(jù)資產(chǎn),而是轉(zhuǎn)變?yōu)榕c自然資源、人力資源同等重要的新型戰(zhàn)略資源,輻射到政治、軍事、社會、科技、商業(yè)、環(huán)境等各個領(lǐng)域。
大數(shù)據(jù)帶來思維方式、商業(yè)運作和管理制度等多方位的變革,涉及政府、行業(yè)企業(yè)和個人,是現(xiàn)在和未來的戰(zhàn)略制高點。人類第一次有機(jī)會和條件,在如此眾多的領(lǐng)域和如此深入的層次獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),深入探索現(xiàn)實世界的規(guī)律,獲取過去不可能獲取的知識,得到過去無法企及的商機(jī)。通曉如何利用大數(shù)據(jù)的國家或企業(yè)將具備新的競爭優(yōu)勢,重新劃定競爭版圖。
3.大數(shù)據(jù)從智能分析延伸到科學(xué)決策
隨著新一代信息技術(shù)的興起,物聯(lián)網(wǎng)、移動終端、社交網(wǎng)絡(luò)、GIS等的廣泛應(yīng)用為大數(shù)據(jù)提供了豐富的數(shù)據(jù)來源。數(shù)據(jù)中包含著每個用戶的身份、地點、時間、喜好、厭惡、行為、社會關(guān)系等大量直接或潛在的信息。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,面向大數(shù)據(jù)的智能化分析不可避免地成為了科技界和企業(yè)界共同關(guān)注的前沿?zé)狳c。
在思維方式上,數(shù)據(jù)的豐富及易得將改變?nèi)祟愓J(rèn)識世界的方式。
(1)從樣本式推導(dǎo)走向全數(shù)據(jù)審視。過去的科學(xué)家、社會學(xué)家、經(jīng)濟(jì)學(xué)家、企業(yè)家等由于技術(shù)和資源的限制,只能通過采樣調(diào)研和統(tǒng)計分析等手段了解關(guān)注的對象,而如今數(shù)據(jù)的采集和存儲成本已經(jīng)很低,完全可以通過全部數(shù)據(jù)進(jìn)行分析,不存在樣本抽樣的概念。大數(shù)據(jù)已成為繼實驗歸納、模型推演和計算機(jī)模擬等范式之后的第四科研范式。
(2)從精確性走向混雜性。大量數(shù)據(jù)的應(yīng)用還具有充分的容錯性,過去采樣的數(shù)據(jù)如果出現(xiàn)失誤可能導(dǎo)致統(tǒng)計結(jié)果偏離嚴(yán)重,而采用全部的數(shù)據(jù)則會將有瑕疵的若干數(shù)據(jù)淡化處理。
(3)相關(guān)關(guān)系成為因果關(guān)系的有效補(bǔ)充。數(shù)據(jù)分析不再局限于驗證已有的推測是否正確,而是努力尋找背后的因果關(guān)系。在很多情況下,只需要知道“是什么”就能做出決策,而不需要對“為什么”投入大量人力、物力進(jìn)行探究。
大數(shù)據(jù)將產(chǎn)生新知識,促進(jìn)創(chuàng)新,推動傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型發(fā)展,催生全新產(chǎn)業(yè),產(chǎn)生巨大的經(jīng)濟(jì)價值,成為產(chǎn)業(yè)升級與經(jīng)濟(jì)轉(zhuǎn)型的創(chuàng)新要素。數(shù)據(jù)的重新組合將會創(chuàng)造新的知識和思想,甚至創(chuàng)造全新的領(lǐng)域。比如在19世紀(jì),研究人員通過將黑死病死亡率和飲用水井的地理分布聯(lián)系起來,發(fā)現(xiàn)了飲用水污染和黑死病之間的關(guān)系,從而推動倫敦建造了全新的排污系統(tǒng),大幅度改善了公眾衛(wèi)生狀況。
通過大數(shù)據(jù)的重新組合和深入應(yīng)用,人們可以期待發(fā)現(xiàn)更多類似的新知識。據(jù)麥肯錫統(tǒng)計(見圖1.5),大數(shù)據(jù)能為美國醫(yī)療服務(wù)業(yè)每年帶來大約3000億美元的商業(yè)價值;能為歐洲的公共管理每年帶來2500億歐元的價值,能幫助美國零售業(yè)提升60%的凈利潤,并幫助降低美國制造業(yè)50%的產(chǎn)品開發(fā)、組裝成本。美國通用電氣公司通過每秒分析上萬個數(shù)據(jù)點,融合能量儲存和先進(jìn)的預(yù)測算法,開發(fā)新型風(fēng)機(jī),效率與電力輸出分別比現(xiàn)行風(fēng)機(jī)提高了25%和15%。Gartner預(yù)測,大數(shù)據(jù)將為全球帶來440萬個IT崗位,1300多萬個非IT崗位。數(shù)據(jù)使用率提升10%對行業(yè)人均產(chǎn)出的平均提升幅度如圖1.6所示。

圖1.5 大數(shù)據(jù)將在各個行業(yè)產(chǎn)生顯著的經(jīng)濟(jì)價值
(資料來源:麥肯錫)

圖1.6 數(shù)據(jù)使用率提升10%對行業(yè)人均產(chǎn)出的平均提升幅度
(資料來源:美國得克薩斯大學(xué)Measuring the Business Impacts of Effective Data)
大數(shù)據(jù)深刻影響著每一個人,更好地使用大數(shù)據(jù)可以幫助個人降低信息獲取成本,在生活中做出更好的決策,增加社會活躍度,提升生活質(zhì)量。如美國政府?dāng)?shù)據(jù)門戶網(wǎng)站(Data.gov)提供50多類數(shù)據(jù)以及處理這些數(shù)據(jù)所需的軟件工具,所有人都可以自由下載使用。該網(wǎng)站的數(shù)據(jù)資料不僅有利于公眾了解政府政策,也對居民的日常生活提供了實在的幫助;丹麥一位女士利用公共數(shù)據(jù)開發(fā)的網(wǎng)站findtoilet.dk,可以顯示全丹麥公共廁所的信息,來幫助她所認(rèn)識的有膀胱問題而不敢出門的人士放心外出;Zillow可以幫助用戶在大量數(shù)據(jù)分析的基礎(chǔ)上,做出購房以及居住地域的選擇,類似的公司還有Ttulia、Estately、Redfin等。
大數(shù)據(jù)從最初的概念和理念演變到今天成為各國政府的行動綱領(lǐng)和資本市場的投資方向,單純對大數(shù)據(jù)本身的智能分析已不足以滿足政府和企業(yè)應(yīng)對技術(shù)模式創(chuàng)新、產(chǎn)業(yè)垂直整合和業(yè)務(wù)深度融合的需求。面對低延遲、細(xì)粒度、多樣化的數(shù)據(jù)源,如何實現(xiàn)復(fù)雜數(shù)據(jù)的信息協(xié)同和科學(xué)決策的智慧支撐成為新的時代命題。
1.3.2 大數(shù)據(jù)分析的關(guān)鍵技術(shù)
隨著智慧城市發(fā)展的需求變革,大數(shù)據(jù)將最終服務(wù)于政府、企業(yè)和科研機(jī)構(gòu)的科學(xué)決策,這就從信息對稱和快速反應(yīng)的角度對大數(shù)據(jù)本身的技術(shù)體系提出了挑戰(zhàn)。在海量數(shù)據(jù)的技術(shù)基礎(chǔ)上,大數(shù)據(jù)由于其自身的固有特征,在非結(jié)構(gòu)化數(shù)據(jù)的海量存儲與實時處理、多數(shù)據(jù)源的整合與集成、多維尺度分析、可視化分析、數(shù)據(jù)質(zhì)量、安全與隱私保護(hù)等五個方面面臨更大的挑戰(zhàn)。除此之外,大數(shù)據(jù)還帶來了一些其他的技術(shù)挑戰(zhàn),如大數(shù)據(jù)的新型表示方法、大數(shù)據(jù)的去冗降噪技術(shù)、高效率低成本的大數(shù)據(jù)存儲、適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境、大幅度降低數(shù)據(jù)處理、存儲和通信能耗的新技術(shù)等。
信息技術(shù)的發(fā)展經(jīng)歷了從硬件到軟件再到服務(wù)的變遷。大數(shù)據(jù)的本質(zhì)實際上是通過新一代信息化技術(shù)從各種各樣的終端理解數(shù)據(jù),快速整合,挖掘價值,并最終做出決策。
大數(shù)據(jù)的4V特征對涉及產(chǎn)生、管理、整合、分析、價值提取生命周期各個環(huán)節(jié)的傳統(tǒng)技術(shù)都帶來了巨大的挑戰(zhàn)。當(dāng)前關(guān)注的大數(shù)據(jù)關(guān)鍵技術(shù)主要涉及海量分布式文件系統(tǒng)、并行計算框架、非關(guān)系型數(shù)據(jù)庫(NoSQL)、實時流數(shù)據(jù)處理、內(nèi)存計算及智能分析技術(shù),如模式識別、自然語言理解、應(yīng)用知識庫等。大數(shù)據(jù)分析的基礎(chǔ)技術(shù)如圖1.7所示。

圖1.7 大數(shù)據(jù)分析的基礎(chǔ)技術(shù)
1.開源軟件受到廣泛歡迎
開源項目和產(chǎn)品正在主導(dǎo)新興的大數(shù)據(jù)市場。分布式處理的軟件框架Hadoop、用來進(jìn)行數(shù)據(jù)挖掘和可視化的軟件環(huán)境R、非關(guān)系型數(shù)據(jù)庫HBase、MongoDB和CouchDB等開源軟件都在大數(shù)據(jù)技術(shù)領(lǐng)域占據(jù)重要地位。2012年排名前5位的數(shù)據(jù)挖掘工具中,有4個是開源軟件。
2.人工智能技術(shù)不斷融入
大數(shù)據(jù)可以看作是對大規(guī)模數(shù)據(jù)集合的智能分析處理。大數(shù)據(jù)之所以受到重視,是因為它能夠幫助人們從似乎無窮多的數(shù)據(jù)中發(fā)現(xiàn)信息、發(fā)現(xiàn)規(guī)則、發(fā)現(xiàn)知識、發(fā)掘智慧,進(jìn)而對未來的發(fā)展態(tài)勢做出預(yù)測。要想對大數(shù)據(jù)做出這樣的智能處理,就必須要用到人工智能技術(shù),大數(shù)據(jù)的管理、分析和可視化等技術(shù)無不與人工智能相關(guān)聯(lián),目前機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言理解、模式識別等人工智能技術(shù)已經(jīng)深深融入到大數(shù)據(jù)各流程的處理技術(shù)之中。
3.非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)受到重視
云計算時代的到來使得數(shù)據(jù)創(chuàng)造的主體由企業(yè)逐漸轉(zhuǎn)向個體,而個體所產(chǎn)生的絕大部分?jǐn)?shù)據(jù)為圖片、文檔、視頻等非結(jié)構(gòu)化數(shù)據(jù)。信息化技術(shù)的普及使得企業(yè)更多的辦公流程通過網(wǎng)絡(luò)得以實現(xiàn),由此產(chǎn)生的數(shù)據(jù)也以非結(jié)構(gòu)化數(shù)據(jù)為主。因此,對非結(jié)構(gòu)化數(shù)據(jù)的處理需求越來越強(qiáng)烈,非結(jié)構(gòu)化處理技術(shù)越來越受到重視,非結(jié)構(gòu)化數(shù)據(jù)采集技術(shù)、NoSQL數(shù)據(jù)庫、流處理技術(shù)正在快速發(fā)展。
4.分布式處理架構(gòu)成為大數(shù)據(jù)處理的普遍模式
由于大數(shù)據(jù)要處理大規(guī)模、海量、異構(gòu)的數(shù)據(jù),傳統(tǒng)的處理方法在存儲空間、處理時間和效率上都難以滿足人們對大數(shù)據(jù)處理的要求,所以在各個處理環(huán)節(jié)中都普遍采用分布式方法進(jìn)行并行處理。此外,由于云計算技術(shù)的發(fā)展,利用云計算技術(shù)處理大數(shù)據(jù)問題成為人們廣泛采用的方法,而云計算技術(shù)也是以分布式處理為核心的。目前,MapReduce等分布式處理方式已經(jīng)成為大數(shù)據(jù)處理各環(huán)節(jié)的通用處理方法,分布式文件系統(tǒng)、大規(guī)模并行處理數(shù)據(jù)庫、分布式編程環(huán)境等技術(shù)也普遍被使用。
數(shù)據(jù)分析是大數(shù)據(jù)決策的核心。大數(shù)據(jù)的價值體現(xiàn)在對大規(guī)模數(shù)據(jù)集合的智能處理,從而可在無窮多的數(shù)據(jù)中發(fā)現(xiàn)信息、知識和智慧。要想實現(xiàn)這樣的價值,最關(guān)鍵的步驟就是對數(shù)據(jù)的分析和挖掘。數(shù)據(jù)的采集、存儲和管理都是數(shù)據(jù)分析步驟的基礎(chǔ),數(shù)據(jù)分析得到的智能結(jié)果可以應(yīng)用到大數(shù)據(jù)相關(guān)的各個領(lǐng)域。大數(shù)據(jù)將充分利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識別、自然語言理解等人工智能基礎(chǔ)技術(shù),進(jìn)一步實現(xiàn)數(shù)據(jù)分析的智能化。
2013年11月,初創(chuàng)企業(yè)Vicarious開發(fā)出一種算法,可擊敗文字型的CAPTCHA。其中,被認(rèn)為難度最高的Google的reCAPTCHA測試其識別率達(dá)90%,而在Yahoo、Paypal及CAPTCHA.com的表現(xiàn)甚至更好,說明數(shù)據(jù)分析技術(shù)又邁出了重要一步。
能夠?qū)ψ匀徽Z言處理和圖像識別等前沿領(lǐng)域提供支持的深度學(xué)習(xí)技術(shù)是大數(shù)據(jù)下最熱門的趨勢之一。Gigaom.com網(wǎng)站整理了一個指南:深度學(xué)習(xí)領(lǐng)域的快速發(fā)展,鼓舞著越來越多的在自然語言處理和圖像識別等領(lǐng)域的初創(chuàng)企業(yè)去研究它。同時,包括Google、微軟、Facebook和雅虎在內(nèi)的科技巨頭,在深度學(xué)習(xí)方面的投入也在提高。有不少高校的研究機(jī)構(gòu)也在該領(lǐng)域進(jìn)行前沿技術(shù)的研究。深入學(xué)習(xí)技術(shù)的主要參與者如表1.1所示。
表1.1 深度學(xué)習(xí)技術(shù)的主要參與者

續(xù)表

除此之外,大數(shù)據(jù)還帶來了一些其他的技術(shù)挑戰(zhàn),如大數(shù)據(jù)的新型表示方法、大數(shù)據(jù)的可視化分析、大數(shù)據(jù)的去冗降噪技術(shù)、高效率低成本的大數(shù)據(jù)存儲、適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境以及大幅度降低數(shù)據(jù)處理、存儲和通信能耗的新技術(shù)等。
1.3.3 大數(shù)據(jù)的安全和隱私保護(hù)
大數(shù)據(jù)對數(shù)據(jù)的完整性和可用性帶來了挑戰(zhàn),但在防止數(shù)據(jù)丟失、被竊取和被破壞上存在一定的技術(shù)難度,傳統(tǒng)的安全工具不再像以前那么有效,而且大數(shù)據(jù)技術(shù)也可能成為黑客的攻擊手段和載體。
1.大數(shù)據(jù)使個人隱私保護(hù)更為困難
20世紀(jì)90年代,可以通過“性別+郵編+出生年月日”識別出87%的美國人,只要保護(hù)好這些個人信息就能很好地保護(hù)隱私。但在今天,通過分析用戶4個曾經(jīng)到過的位置點就可以識別95%的用戶,分析Facebook的like按鈕就能獲得大量用戶個人信息,如種族(準(zhǔn)確率95%)、性別(93%)、性取向(88%)、單身狀況(67%)等,這使得保護(hù)個人隱私更為困難。
2.國家安全面臨更大威脅
2013年5月底,隨著“斯諾登事件”爆料棱鏡(Prism)計劃,美國國家安全局(NSA)秘密對其國內(nèi)公民和其他國家的大規(guī)模數(shù)據(jù)收集和監(jiān)控行為浮出水面,谷歌、微軟等6家互聯(lián)網(wǎng)企業(yè)和運營商為其提供了數(shù)據(jù)支持。其中,無界告密者(Boundless Informant)項目在2013年2月至3月的短短30天內(nèi),就從全世界互聯(lián)網(wǎng)上收集到970億條數(shù)據(jù)。據(jù)美國媒體披露,NSA還有一個名為定制入口組織(Tailored Access Operations)的秘密機(jī)構(gòu),有超過1000名軍隊及民間專家,該組織每小時可獲取2PB數(shù)據(jù)并可自動處理。英國也有類似的大數(shù)據(jù)監(jiān)控行動,并與美國共享情報。中國大陸是美國監(jiān)控的重點對象。據(jù)斯諾登稱,在過去15年時間里,定制入口組織已滲透到中國計算機(jī)及電信系統(tǒng),獲得了有關(guān)中國“最好的、最可靠的情報”。
3.?dāng)?shù)據(jù)安全的風(fēng)險更加凸顯
隨著大數(shù)據(jù)海量數(shù)據(jù)存儲和信息分析萃取手段的進(jìn)步,必將加大信息的開放度,帶來的副作用是IT基礎(chǔ)架構(gòu)將變得越來越一體化和外向型,這就對數(shù)據(jù)安全和知識產(chǎn)權(quán)構(gòu)成了更大的風(fēng)險。同時,由于大數(shù)據(jù)拓寬了對個人信息獲取的渠道,引發(fā)了用戶隱私性與信息利用便利性之間的沖突。在大數(shù)據(jù)時代,不論告知與許可,還是匿名(隱身)、模糊化,這三大傳統(tǒng)的用戶隱私保護(hù)策略都將失效。消費者雖然可以受惠于海量數(shù)據(jù)挖掘帶來的更符合消費需要和更低價格的商品,但也隨著個人購買偏好、健康、財務(wù)情況等數(shù)據(jù)被收集,增加了對隱私安全的擔(dān)憂。因此,必須采取應(yīng)用和管理同步、開放和管控并重的方法,在促進(jìn)大數(shù)據(jù)時代市場良性競爭的同時,切實保護(hù)數(shù)據(jù)安全。
隨著數(shù)量越來越多的數(shù)據(jù)被數(shù)字化,跨越組織邊界而流動著,一系列政策問題將會變得越來越重要,這包括但不限于隱私、安全、知識產(chǎn)權(quán)和責(zé)任。顯然,隨著海量數(shù)據(jù)的價值愈加明顯,隱私是個重要等級(尤其是對消費者來說)不斷提高的問題。個人數(shù)據(jù)(例如健康和財務(wù)記錄)經(jīng)常能夠提供最重要的人類福利,例如,幫助精準(zhǔn)確定適當(dāng)?shù)尼t(yī)療或者最恰當(dāng)?shù)慕鹑诋a(chǎn)品。然而,消費者也將這些類別的數(shù)據(jù)視為最敏感的個人隱私。顯然,個人和其生活所在的社會將不得不努力在數(shù)據(jù)隱私和數(shù)據(jù)的功用之間權(quán)衡取舍。
海量數(shù)據(jù)日益提升的經(jīng)濟(jì)意義也昭示了一系列法律問題,尤其是當(dāng)其與如下事實聯(lián)系起來時:即數(shù)據(jù)與許多其他資產(chǎn)具有根本性的差異。數(shù)據(jù)可以與其他數(shù)據(jù)結(jié)合起來完美而輕松地復(fù)制,同樣一份數(shù)據(jù)可以由多個人同時使用。這些是數(shù)據(jù)與實體資產(chǎn)相比的獨有特征。有關(guān)數(shù)據(jù)所附帶的知識產(chǎn)權(quán)的問題不容回避:何人“擁有”某份數(shù)據(jù)?某一數(shù)據(jù)集附帶著何種權(quán)利?數(shù)據(jù)的“公平使用”的定義是什么?此外,還有與責(zé)任相關(guān)的問題:當(dāng)一份不準(zhǔn)確的數(shù)據(jù)導(dǎo)致負(fù)面結(jié)果時誰應(yīng)負(fù)責(zé)?要充分發(fā)揮海量數(shù)據(jù)的潛力,此類法律問題需要澄清,也許會隨著時間的推移逐步澄清。
4.大數(shù)據(jù)跨境流動問題更加頻繁
跨境數(shù)據(jù)服務(wù)折射出隱私安全。2011年,兩位美國技術(shù)人員發(fā)現(xiàn)iPhone會在隱蔽的情況下持續(xù)收集用戶位置信息并且保存。《華爾街日報》調(diào)查后發(fā)現(xiàn),即便用戶關(guān)閉手機(jī)的定位功能,也不能阻止這種情況發(fā)生。多數(shù)用戶在使用手機(jī)應(yīng)用商店服務(wù)時,都會“同意”所謂的隱私協(xié)定,但他們并不清楚這個簡單的行為意味著什么。這些應(yīng)用商店和軟件開發(fā)者會利用這些資料去做用戶完全不知道的事情。無論用何種方式登錄互聯(lián)網(wǎng),許多隱藏在背后的機(jī)構(gòu)和個人可以瞬間知道你是誰、來自哪里、收入高低、品牌喜好,甚至一周內(nèi)的消費計劃。而孤立的用戶永遠(yuǎn)不會想到,這些信息就是通過iPhone的一次不經(jīng)意下載、搜索、導(dǎo)航、點評被掌握的。
目前,我國對大數(shù)據(jù)的安全保護(hù)能力還十分有限。當(dāng)前,發(fā)達(dá)國家已經(jīng)借助大數(shù)據(jù)發(fā)展逐步掌握竊取、挖掘別國信息的能力,“棱鏡門”事件就是這一現(xiàn)象的集中反映。我國對大數(shù)據(jù)的保護(hù)能力還十分有限,數(shù)據(jù)被惡意使用的現(xiàn)象難以掌控。2012年中國的數(shù)據(jù)存儲量是364EB,其中55%(200EB)的數(shù)據(jù)需要一定程度的保護(hù),然而只有96EB的數(shù)據(jù)得到保護(hù);個人和企業(yè)的數(shù)據(jù)資源保護(hù)意識比較單薄,如CSDN 600萬個人注冊信息泄露,中國人壽80萬保單個人信息泄露。
1.3.4 大數(shù)據(jù)決策的應(yīng)用案例
目前,大數(shù)據(jù)決策正在向更多的行業(yè)和應(yīng)用場景拓展。在行業(yè)方面,大數(shù)據(jù)決策已經(jīng)從電子商務(wù)、互聯(lián)網(wǎng)、快速消費品等行業(yè)向金融、政府、公共事業(yè)、能源、交通等行業(yè)擴(kuò)展;從應(yīng)用場景來看,也從結(jié)構(gòu)化數(shù)據(jù)的分析發(fā)展到半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的分析,尤其是社交媒體信息分析受到用戶的更多關(guān)注。
1.谷歌
大數(shù)據(jù)決策最著名的案例當(dāng)屬2009年甲型H1N1流感爆發(fā)幾周前,互聯(lián)網(wǎng)巨頭谷歌公司的工程師們在《自然》雜志上發(fā)表了一篇引人注目的論文。它令公共衛(wèi)生官員們和計算機(jī)科學(xué)家們感到震驚。文中表示,和疾控中心一樣,谷歌也能判斷出流感是從哪里傳播出來的,而且其判斷非常及時,不會像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。谷歌公司發(fā)現(xiàn)能夠通過人們在網(wǎng)上檢索的詞條辨別出其是否感染了流感后,把5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003-2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進(jìn)行了比較。通過一個數(shù)學(xué)模型處理后,其預(yù)測與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。所以,2009年甲型H1N1流感爆發(fā)的時候,與習(xí)慣性滯后的官方數(shù)據(jù)相比,谷歌成了更有效、更及時的指示標(biāo),公共衛(wèi)生機(jī)構(gòu)的官員獲得了非常有價值的數(shù)據(jù)信息。
2.零售行業(yè)
諸如沃爾瑪、Tesco(英國零售巨頭)等巨頭已從數(shù)據(jù)中獲得了巨大的利益,也因此鞏固了自己在業(yè)界的長盛不衰。以曾經(jīng)因“少女懷孕事件”而成為大數(shù)據(jù)典型案例的Tesco公司為例,這家全球利潤第二大的零售商從其會員卡的用戶購買記錄中,可充分了解一個用戶是什么“類別”的客人,如速食者、單身、有上學(xué)孩子的家庭等,并可基于這些分類進(jìn)行一系列業(yè)務(wù)活動。比如,通過郵件或信件寄給用戶的促銷可以變得十分個性化,店內(nèi)的上架商品及促銷也可以根據(jù)周圍人群的喜好、消費的時段使其更加有針對性,從而提高貨品的流通。這樣的做法為Tesco獲得了豐厚的回報,僅在市場宣傳一項,就能幫助Tesco每年節(jié)省3.5億英鎊的費用。
3.能源行業(yè)
SaaS型軟件公司Opower使用數(shù)據(jù)來提高消費用電的能效,并取得了顯著的成功。Opower與多家電力公司合作,分析美國家庭的用電費用并將其與周圍鄰居的用電情況進(jìn)行對比,被服務(wù)的家庭每個月都會收到一份對比的報告,顯示自家用電在整個區(qū)域或全美類似家庭中所處的水平,以鼓勵節(jié)約用電。據(jù)報道,Opower的服務(wù)已覆蓋了美國幾百萬戶居民家庭,預(yù)計可為美國消費用電每年節(jié)省5億美元。
4.生物信息行業(yè)
生物信息是繼互聯(lián)網(wǎng)行業(yè)之后數(shù)據(jù)迸發(fā)最迅速的行業(yè),并將遠(yuǎn)遠(yuǎn)超過互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù):人類用0和1創(chuàng)造了虛擬世界,而大自然用A、C、T、G(腺嘌呤Adenine、胞嘧啶Cytosine、胸腺嘧啶Thymine、鳥嘌呤Guanine)四種元素創(chuàng)造了萬物,生命的產(chǎn)生、發(fā)展、消亡的奧秘盡在其中。隨著測序技術(shù)的發(fā)展,全基因組的測序價格由十年前的上億美元降至今天的數(shù)千美元,這使得更多人、物種的DNA信息的獲取成為可能。個體全基因組信息的獲取,使得個性化診療服務(wù)成為可能。大數(shù)據(jù)時代,一切的一切都存在著可能,而這一切的改變我們也正在體驗之中。
5.阿里巴巴
阿里巴巴旗下的淘寶網(wǎng)是全球訪問量最大的電子商務(wù)網(wǎng)站。以前,淘寶網(wǎng)的事務(wù)處理依托國際數(shù)據(jù)庫巨頭甲骨文的商業(yè)數(shù)據(jù)庫軟件,成本很高,但性能和可擴(kuò)展性較差,制約了企業(yè)發(fā)展。幾年前,淘寶網(wǎng)下決心使用開源軟件MySQL Cluster替代,其事務(wù)處理的性能和可擴(kuò)展性都有了數(shù)量級的提升?,F(xiàn)在淘寶網(wǎng)的全部應(yīng)用軟件(包括數(shù)據(jù)魔方等數(shù)十種大數(shù)據(jù)計算應(yīng)用)和基礎(chǔ)軟件都是自行開發(fā)或采用開源軟件,擺脫了商業(yè)軟件制約。阿里公司根據(jù)在淘寶網(wǎng)上中小企業(yè)的交易狀況篩選出財務(wù)健康和講究誠信的企業(yè),對其發(fā)放無須擔(dān)保的貸款。目前已放貸300多億元,壞賬率僅0.3%,大大低于商業(yè)銀行。
淘寶網(wǎng)還建立了“淘寶CPI”,通過采集、編制淘寶網(wǎng)上390個類目的熱門商品價格來統(tǒng)計CPI,比國家統(tǒng)計局公布的CPI還提前半個月預(yù)測經(jīng)濟(jì)的走勢。
6.華大基因公司
華大基因是目前世界上最大的基因組學(xué)研究中心,也是我國典型的大數(shù)據(jù)處理和應(yīng)用公司。該公司建立了大規(guī)?;驕y序、克隆、農(nóng)作物基因組等技術(shù)平臺,測序和基因組分析能力世界領(lǐng)先。目前,華大基因已經(jīng)完成了水稻、谷子、玉米、大豆、番茄等重要農(nóng)作物的全基因組測序,對25種栽培稻和24種野生稻進(jìn)行了基因組掃描和分析,找到了162個基因,這些基因與水稻高產(chǎn)性狀緊密相關(guān)。該公司還啟動了百萬人基因圖譜計劃,預(yù)計3~5年內(nèi)測定100萬人以上的全基因組圖譜,目前已針對染色體疾病等多種疾病開發(fā)了先進(jìn)的基因檢測技術(shù),形成了貫穿整個生命周期的基因檢測與診斷技術(shù)體系。
7.農(nóng)夫山泉
農(nóng)夫山泉通過大數(shù)據(jù)分析技術(shù)使銷售額提升了大約30%,并使庫存周轉(zhuǎn)從5天縮短到3天,同時其數(shù)據(jù)中心的能耗降低了約80%。
8.百分點公司
百分點公司擁有海量網(wǎng)購消費者偏好數(shù)據(jù),積累了超過1.4億名網(wǎng)購消費者的消費偏好和200多億個消費偏好標(biāo)簽,已成為國內(nèi)最大的跨網(wǎng)站消費偏好平臺。
9.中信銀行
中信銀行信用卡中心通過部署大數(shù)據(jù)分析系統(tǒng),實現(xiàn)了近似實時的商業(yè)智能和秒級營銷,運營效率得到全面提升,每次營銷活動配置平均時間從2周縮短到2~3天,交易量增加65%,不良貸款比率同比減少了0.76%。
- 城市中國之道:新中國成立70年來中國共產(chǎn)黨的城市化理論與模式研究
- 志愿家庭:北京經(jīng)驗與反思
- 社會學(xué)視野中的全球化與現(xiàn)代國家
- 改革國際評級體系 推動世界經(jīng)濟(jì)復(fù)蘇
- 國土與政策全覆蓋城市群和城鎮(zhèn)體系理論
- 健康是生產(chǎn)力(修訂版)
- 災(zāi)后扶貧與社區(qū)治理
- 中國人可以多生?。悍此贾袊丝谡?/a>
- 告別“第二性”
- 新浙江現(xiàn)象
- 中國勞動經(jīng)濟(jì)學(xué)40年:1978—2018
- 災(zāi)害社會工作:介入機(jī)制及組織策略
- 國家認(rèn)同建構(gòu):基于民族視角的考察
- 愛的陷阱:如何讓親密關(guān)系重獲新生
- 凱列班與女巫:婦女、身體與原始積累