第三節 大數據概念的界定
究竟何為大數據?“大數據”一詞可以從字面上理解為“巨大的數據量”。Manyika等認為“大數據是指數據的集合,其大小已經超出了現有典型數據庫獲取、存儲、管理和分析數據的能力”。達到什么程度的數據才可以叫作大數據?目前尚未形成一個普適性的定義。一般認為,大數據的量級應該是“太字節”,即2的40次方。當數據規模非常巨大達到某種程度時,會使數據呈現某些有價值的特性,而由于數據體量較大,這些特性無法通過傳統的數據處理技術進行歸納分析,需要新的技術進行挖掘與分析。因此,大數據不僅指規模巨大的數據,而且是一種分析處理龐大數據的技術。涂子沛在其《大數據》一書中認為“大數據”是指一般的軟件工具難以捕捉、管理和分析的大容量數據,以“太字節”為單位?!按髷祿敝螅粌H在于容量之大,更深層次的意義在于:因為人類分析和使用的數據量呈爆炸式增長,通過對海量大數據的交換、整合、挖掘和分析,可以發現新的知識,創造新的價值,由此帶來“大知識”“大科技”“大利潤”和“大發展”。
本節將從理論、技術、實踐三個層面具體論述大數據的概念,如圖1-2所示。

圖1-2 大數據概念的層面
一、理論層面
目前尚未有權威機構對大數據的概念進行統一界定,因此存在多個版本的定義。
1. John Rauser亞馬遜網絡服務(Amazon Web Services, AWS)大數據科學家
大數據就是任何超過了一臺計算機處理能力的龐大數據量。
2. 麥肯錫
大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。
3. 維基百科
巨量資料(big data),或稱大數據,指的是所涉及的數據量大到無法通過目前主流軟件工具,在合理時間內達到擷取、處理并整理成為促進企業經營更積極決策的資訊。
4. 研究機構Gartner
“大數據”是使用高效的信息處理方式以具備更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,“大數據”是指無法使用傳統流程或工具處理或分析的信息。它定義了迫使用戶采用非傳統處理方法處理的超出正常處理范圍及大小的數據集,其價值在于提高數據使用者的最終決策力(圖1-3)。

圖1-3 大數據的定義
5. 互聯網數據中心(IDC)
大數據是為更經濟地從高頻率的、大容量的、不同結構和類型的數據中獲取價值而設計的新一代架構與技術。
6. 《互聯網周刊》
“大數據”的概念遠遠超過了海量數據及處理數據的技術,或是類似的“4個V”的簡單理解,而是涵蓋了人們只有在基于大規模數據能夠做的事情,這些在小規模數據的基礎上是根本無法實現的。也就是說,大數據讓我們以一種前所未有的方式,通過對大規模數據進行分析,獲取有巨大價值的產品及服務,或深刻的洞見,最后形成變革之力。
7. 《大數據時代的歷史機遇——產業變革與數據科學》
“大數據”是在多樣的或者大量的數據中,迅速獲取信息的能力。前面幾個定義都是從大數據本身出發,我們的定義更關心大數據的功用,它能幫助大家干什么。在這個定義中,重心是“能力”。大數據的核心能力是發現規律和預測未來。
上述定義基本上都是基于大數據內涵本身,但在現實中,更重要的是大數據的價值與應用。因此下文將從大數據的定義、特征出發,了解各行各業對大數據的整體描繪和定性分析,挖掘大數據的獨特價值,洞悉大數據的未來發展趨勢,并從數據安全的角度重新審視數據的合理有效使用問題。
(一)特征定義
大數據作為數據本身具備三個特點,一是廣泛存在性,即絕大多數產品與行為均可產生數據,是否記錄主要取決于技術能力與成本考量;二是非獨占性,即數據可被多次使用,尤其是公開的數據可以被其他人所使用;三是多認知性,即根據使用者的不同,同樣的數據會產生不同的理解和使用方式。
而“大”為之帶來的特點則是體量巨大,處理速度較快、數據類型多樣、商業價值高和在線化。2001年2月,梅塔集團分析師道格·萊尼發表了《3D數據管理:控制數據容量、處理速度及數據種類》的研究報告,對大數據提出“3D數據管理”的看法,即數據成長將朝三個方向發展,分別為數據即時處理的速度(velocity)、數據格式的多樣化(variety)與數據量的規模(volume),被歸納為“3V特征”。之后,隨著資訊科技的進步,數據量的復雜程度越來越高,“3V”已經不足以形容新時代的大數據,因此在2012年,不僅萊尼提出調整現有的3V分析框架,而且包括高科技公司IBM、國際調查機構Gartner、IDC等紛紛對大數據提出新的論述,在原本的速度、多樣化與規模三個特征上,增加價值性(value)和在線的(online)兩個特征。
大數據的五個特征聯系緊密、協同交替,如圖1-4所示。

圖1-4 大數據的特征
(1)數據體量(volume)巨大,一般數據庫的大小在TB級別,而大數據的起始計量單位在PB(1 PB=1 024 TB)級別,有的甚至躍升至EB、ZB級別,包括采集、存儲和計算的量都非常大。百度資料表明,其新首頁導航每天需要提供的數據超過1.5 PB,這些數據如果打印出來將超過5 000億張A4紙。有資料證實,到目前為止,人類生產的所有印刷材料的數據量僅為200 PB。
(2)數據類型(variety)繁多,有結構化、半結構化及非結構化數據,具體表現為圖片、地理位置信息、網絡日志、視頻、音頻等,其中個性化數據占絕大多數。多類型的數據對數據處理能力的要求更高,已沖破了之前所限定的結構化數據的范疇。
(3)處理速度(velocity)快,在數據量非常龐大的情況下,也能夠做到數據的實時處理與分析,這與傳統的數據挖掘技術有著本質的不同。數據體量的增大對數據的處理速度、時效性提出了更高的要求,如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能要求實時完成推薦。而大數據技術正好能滿足這一需求,這也是其區別于傳統數據挖掘的顯著特征。
(4)價值密度低(value)。隨著互聯網以及物聯網的廣泛應用,信息感知無處不在,大量信息的價值密度很低,即盡管數據量大,類型多,處理速度快,但真正有價值的數據卻很少。以視頻為例,1小時的視頻,在持續不間斷的監控過程中,有價值的數據可能只有一兩秒。如何結合業務邏輯并通過強大的機器算法來挖掘數據價值,是大數據時代亟須解決的問題。
(5)數據是在線的(online),即隨時能調用和計算的,這是大數據區別于傳統數據最大的特征。在互聯網高速發展的背景下,數據資源不僅僅是體量大,更重要的是表現出在線這一顯著特征。數據只有在線,即數據在與產品用戶或者客戶產生連接的時候才有意義。如用戶在使用某互聯網應用時,其行為能夠及時地傳給數據使用方,數據使用方通過數據分析或者數據挖掘進行加工,對該應用的推送內容進行優化,把用戶最想看到的內容推送給用戶,就能提升用戶的使用體驗。
此外,業界還有人總結出大數據的其他特征,如數據準確性(veracity)高,隨著社交數據、商業交易與應用數據等新型數據源的興起,企業越來越需要有效的信息以確保其真實性及安全性;存活性(viability)低,是指特定情況下的大數據具有很強的時效性。
與傳統數據服務相比,大數據服務擁有來自企業內部、外部市場及環境等不同來源的海量數據,通過傳感器采集、互聯網抓取等方式獲取。快速發展的分布式計算及多樣的數據分析模型使海量數據處理成為可能(圖1-5)。

圖1-5 傳統數據服務與大數據服務的不同
(二)價值探討
隨著大數據時代的來臨,大數據技術開始廣泛應用于越來越多的領域,但只有了解大數據的價值,了解大數據究竟會如何改變生活才能更好地利用大數據。因此,需要結合時代與社會背景來具體分析大數據,理解它如何在時代變革中發揮作用。
1. 技術變革
大數據的處理與分析正成為新興信息技術應用融合的結點,并持續推動信息產業高速增長。移動互聯網、物聯網、社交網絡、電子商務等是新一代信息技術的應用形態,這些應用會不斷地產生即時數據,成為大數據的重要來源。云計算技術則為這些海量、多樣化的大數據提供存儲和運算平臺,并通過分析優化,將結果反饋到應用中,使其創造出巨大的經濟和社會價值。大數據價值的實現呼喚新技術、新產品、新服務、新業態的產生。這在硬件與集成設備領域表現為對芯片、存儲性能提出更高的要求,并催生一體化數據存儲處理服務器、內存計算等市場;在軟件與服務領域表現為,引發了數據快速處理分析、數據挖掘技術和軟件產品的發展。
2. 行業變革
大數據日益成為提高企業核心競爭力的關鍵因素,不同行業的企業決策正在由“業務驅動”轉向“數據驅動”。對大數據的分析可以幫助企業為消費者提供更加快速和個性化的服務;可以為商家制定精準營銷的策略提供決策支持;在公共事業領域,大數據在促進經濟發展、維護社會穩定等方面起著重要作用。各行各業將在大數據技術的指導下,重新定義行業的未來,這將引發全行業的變革。
3. 思維變革
在大數據時代,科學研究方法將發生重大改變。抽樣調查不再是社會科學研究中普遍采取的方法,而是通過實時監測研究對象在互聯網上產生的海量行為數據,進行挖掘分析,揭示出規律性的東西,提出研究結論和對策。由于采集、存儲、分析數據能力的提高,大數據時代下我們可以收集全體數據而非隨機樣本。當我們掌握了海量數據時,精確性就不那么重要了,因為我們足以掌握事情的發展趨勢。同時,我們不再關注數據之間的因果關系,而是僅僅從數據中發現相關關系,讓數據自己“發聲”。如此的相關關系分析法能夠更快、更準確地處理數據之間的關系,而且不易受偏見的影響,提高了分析決策的效率。探求數據價值取決于把握數據的人,關鍵是人的數據思維,與其說是大數據創造了價值,不如說是大數據思維觸發了新的價值增長。
從哲學意義上說,大數據的價值來自“大成智慧”。每個數據來源都有一定的片面性和局限性,只有整合各類原始數據,才能體現事物的全貌。事物的本質與規律隱藏在各種原始數據之中。不同的數據能對同一個問題提供不同角度的互補信息,可以幫助更深入地理解相關問題。因此匯集盡量多種來源的數據是大數據分析的關鍵。
數據科學是數學(統計、代數、拓撲等)、計算機科學、基礎科學和各種應用科學融合的結果。大數據能不能出智慧,關鍵在于對多種數據源的集成和融合。發展大數據的目標就是要獲得協同融合的“無縫智慧”,單靠一種數據源會導致片面性。數據的開放共享是決定大數據成敗的重要前提。大數據研究與應用要改變過去各部門和各學科相互分割、獨立發展的傳統思路,而是強調不同部門、不同學科的協作。
(三)未來展望
大數據的未來應用前景是非常光明的。雖然目前無法準確預測大數據最終會將人類社會帶往哪種形態,但只要發展的腳步還在繼續,因大數據而產生的變革浪潮將會波及這個星球的每一個角落。
未來大數據應用中一個難以繞開的問題就是用戶隱私問題。如被央視曝光過的羅維鄧白氏和分眾無線涉及侵犯用戶隱私。到目前為止,中國還沒有出臺專門的法律法規來定義用戶隱私,必須利用其他相關法律法規來解釋有關問題。但隨著民眾個人隱私保護意識的日益增強,在進行大數據分析時必須遵循合法合規地獲取、分析及應用數據的原則。2012年3月,Gartner發表了一份題為Information Security is Becoming a Big Data Analytics Problem的報告,表示信息安全問題正在變成一個大數據分析問題,大規模的安全數據需要被有效地關聯、分析和挖掘,并預測未來將出現安全分析平臺,以及部分企業在未來5年將出現一個新的崗位——“安全分析師”或“安全數據分析師”。
對于大數據安全分析而言,最關鍵的不在于大數據本身,而在于對這些數據的分析方法。大數據安全分析可以使用大數據分析通用的技術與方法,但是當具體應用到網絡安全領域的時候,還必須考慮到安全數據自身獨有的特點及安全分析的最終目標,只有這樣,大數據安全分析的應用才更有價值。例如,在進行異常行為分析,或者惡意代碼分析和APT(高級持續性威脅)攻擊分析的時候,先分析模型才是最重要的。其次,才是考慮如何利用大數據分析技術(例如,并行計算、實時計算、分布式計算)來實現這個分析模型。
二、技術層面
大數據技術是大數據價值實現的手段和保障,下文將從數據采集、導入與預處理、統計分析和數據解釋四個步驟來具體論述大數據的分析過程。
(一)數據采集
數據采集是指利用多個數據庫來接收各種客戶端(Web、APP或者傳感器形式等)的數據,并且用戶可以通過這些數據庫來進行簡單的查詢和處理工作。比如,電商會使用傳統的關系型數據庫MySQL和Oracle等來存儲每一筆事務數據,除此之外,Redis和MongoDB這樣的NoSQL數據庫也常用于數據的采集。數據采集是大數據處理流程的基礎,目前常用的采集手段有條形碼技術、射頻識別技術(radio frequency identification, RFID)等。在大數據的采集過程中,面臨的一個主要挑戰是并發數高,如火車票售票網站、亞馬遜、淘寶這樣的網站可能同時訪問與操作的用戶數以萬計,它們并發的訪問量在峰值時達到上百萬,需要在采集端部署大量數據庫才能支撐。因此,需要深入地思考和設計如何在這些數據庫之間進行負載均衡。
(二)導入與預處理
數據導入與預處理的主要任務是對采集到的數據進行適當的清洗、去噪、抽取和集成。一般而言,通過在采集端部署大量數據庫能夠采集到海量的數據,但是通過各種渠道獲取的數據類型非常復雜,給后續的數據分析造成了困難。要想對這些海量數據進行有效的分析,應該將這些來自前端的數據導入一個集中的大型分布式數據庫或分布式存儲集群,經過數據處理環節后,數據結構變得單一而且易于處理。除此之外,有必要使用聚類分析或者關聯分析等方法對數據進行去噪及清洗,從而保證數據的質量與可靠性。導入與預處理過程的主要問題是導入的數據量大,每秒鐘的導入量常常會達到百兆、千兆,甚至更高級別的數據。
(三)統計分析
統計分析是大數據處理流程中最為關鍵的部分,也是發現數據價值的主要環節。由于大數據具有多樣性特點,僅采用傳統的數據挖掘、機器學習、智能計算等數據分析方法已無法滿足大數據時代對算法提出的快速高效等要求。因此,需要利用新技術對大數據進行有效的處理分析。其中主要使用分布式數據庫,或是分布式計算集群等工具對存儲的大規模數據進行普通的分類匯總及簡單分析,從而滿足大部分的基本分析需求。有些即時需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而Hadoop則被用來處理一些基于半結構化或批處理的數據。統計分析的主要挑戰就是關聯的數據量大,其對系統資源,尤其是I/O會有極大的占用,因此亟待提高基礎設備的性能。
大數據統計分析具體可以概括為以下四個基本方面。
一是可視化分析(analytic visualizatons),這是用戶最基本的要求。因為可視化分析可以直接呈現大數據的特點,并且非常容易為讀者所接受,使得數據分析解讀如同看圖說話一樣簡明。
二是數據挖掘算法(data mining algorithms),這是大數據分析的理論核心部分?;诓煌瑪祿愋团c格式需要多種各異的算法才能更科學地展現出數據本身具備的特點,才能深入數據內部,挖掘出數據應有的價值。與此同時,基于大部分數據的時效性特征,數據挖掘算法對于迅速處理數據而言至關重要,否則大數據的價值就會難以衡量。
三是預測性分析(predictive analytic capabilities),這是大數據分析最核心的應用之一。該種分析從海量數據中勘探出某些特征,在此基礎上建立科學的模型,并隨后通過將新數據導入模型以預測未來可能的結果。
四是語義引擎(semantic engines)。大數據時代下數據類型更加多樣化,非結構化、半結構化數據的出現帶來了挑戰,需要用新的技術加以解決。而“語義引擎”能夠從“文檔”中智能提取信息,如從用戶的搜索關鍵詞、標簽關鍵詞或其他輸入語義中分析并判斷用戶的需求,能實現更好的用戶體驗和精準營銷,提高數據分析的效率。
(四)數據解釋
解釋與演示大數據的分析結果是數據解釋的主要任務。不合適的數據顯示結果會困擾和誤導用戶。在大數據時代,基于文本形式及屏幕輸出的傳統方式已不再適用,因此有必要通過數據可視化、人機交互等新型技術將分析結果生動形象地展示給用戶,以幫助用戶更加清晰地了解整個數據處理流程和最終結果。
三、實踐層面
大數據的價值最終體現在實際運用中。下面將分別從互聯網大數據、政府大數據、企業大數據和個人大數據四個方面來描繪大數據時代的美好藍圖。
(一)互聯網大數據
據IDC預測,到2020年全球將總共擁有35 ZB的數據量。互聯網是大數據發展的前沿陣地,隨著Web 2.0時代的發展,人們似乎都習慣了將自己的生活通過網絡進行數據化,加速了大數據時代的來臨?;ヂ摼W數據以每年50%的速度增長,每兩年便將翻一番,目前世界上90%以上的數據是最近幾年才產生的。
互聯網領域大數據應用的典型代表可以簡要歸納如下。
1. 用戶行為數據
用戶行為數據主要是通過在手機移動端、智能穿戴設備、智能家居、社交網站等客戶端采集此類數據,進行用戶的行為習慣與喜好分析,從而實現內容推薦、精準廣告投放、產品優化等目的。微信在其朋友圈逐步投放廣告,也是其利用用戶行為數據進行精準營銷的實踐之一。
2. 用戶消費數據
用戶消費數據主要是通過電商平臺、導購網站上的交易數據、瀏覽記錄來實現對產品的精準營銷以及對用戶的信用記錄分析,從而實現更精準地開展促銷活動,評估用戶的信用等級并協助其理財等功能。阿里集團憑借旗下的淘寶、天貓等購物平臺收集了大量的用戶交易數據和信用數據,能夠對用戶的消費習慣做出預測,在合適的時點進行大規模的促銷,“雙十一”購物節的成功就是很好的例子。同時,螞蟻金融還推出了信用評估體系——芝麻信用分,并在此基礎上開發了消費貸款產品——花唄,為其涉足互聯網金融領域奠定基礎。
3. 用戶地理位置數據
用戶地理位置數據主要是通過移動端對用戶的地理位置進行定位,從而實現O2O推廣、商家推薦、交友推薦等,以線上的營銷帶動線下的消費。大眾點評、美團等團購平臺就是利用了這種數據類型實現營銷。
4. 互聯網金融數據
互聯網金融數據主要指P2P、小額貸款、支付等交易記錄以及信用記錄,從而更精準地進行金融產品的營銷、對金融產品及服務進行定價、提高風險控制的水平。
5. 用戶社交等UGC數據
用戶社交等UGC數據,即用戶通過互聯網平臺向其他用戶分享的自己原創的內容。UGC不是某一種具體業務,而是用戶使用互聯網的新方式,由原來的以下載為主轉變為下載和上傳兩者并重。YouTube等網站是UGC的成功案例,社區網絡、圖片分享、視頻分享等都是UGC的主要應用形式。收集這些數據可以用于趨勢分析、流行元素分析、受歡迎程度分析、輿論監控分析、社會問題分析等,并可以從里面挖掘出政治、社會、文化、商業、健康等領域的信息,甚至可以用于預測未來。
(二)政府大數據
我國政府部門握有構成社會基礎的原始數據,如信用數據、氣象數據、環保數據、金融數據、電力數據、教育數據、煤氣數據、道路交通數據、自來水數據、醫療數據、安全刑事案件數據、住房數據、海關數據、出入境數據、旅游數據等。這些數據在每個政府部門里看起來都是單一的、靜態的。但是如果可以將這些數據關聯起來,并對這些數據進行有效的關聯分析和統一管理,那么這些數據必將創造出無法估量的價值。大數據擁有變革產業、變革社會的力量,在我國產業結構升級、城市規劃、政治改革的進程中必然發揮重要的作用,這使得它成為國家戰略的重要組成部分。
具體以智慧城市建設為例?,F代化城市都計劃走向智能和智慧,如智能電網、智慧交通、智慧醫療、智慧環保、智慧城市等,而這些目標的實現都需要緊緊依托大數據,可以說大數據是智慧的核心能源?;趪鴥日w的投資規模,到2012年年底全國開展智慧城市創建的城市數量超過180個,數據平臺及通信網絡等基建的投資規模將近5 000億元?!笆濉睍r期智慧城市建設帶動的設備投資規模預計近1萬億元。大數據將為建設智慧城市涉及的多個領域提供決策幫助。對于城市規劃,城市地理、氣象等自然信息及社會、經濟、文化、人口等人文社會信息的挖掘可以為城市規劃提供建議和協助決策,提高城市管理服務的科學性及前瞻性。對于交通管理,通過對道路交通信息的實時挖掘,可以有效緩解交通擁堵的情況,并且快速應對突發狀況,為城市交通的正常運行提供科學的決策依據。對于輿情監控,通過網絡相關關鍵詞的搜索和語義智能分析,可以加強輿情分析的及時性及全面性,把握輿情,應對網絡突發公共事件,打擊違法犯罪等惡劣行為,多角度提高公共服務能力。最后,對于安防和防災方面,利用大數據挖掘能夠及時發現自然或者人為災害、恐怖襲擊事件,提高應急處理能力和安全防范能力。
(三)企業大數據
企業決策者需要借助充足的數據來做出科學決策。在未來,大數據就像一個巨大的杠桿,能夠從局部撬動企業整體,提升公司的影響力,帶來競爭差異,增加利潤,愉悅買家,獎賞忠誠用戶,將潛在客戶轉化為客戶,增加企業對顧客的吸引力,開拓用戶群并創造市場。以下三類傳統企業最需要大數據服務:一是對大量的消費者提供產品或服務的企業,大數據能夠幫助它們實現精準營銷,從而降低成本、提高利潤、提升競爭力;二是做小而美模式的中長尾企業,借助大數據分析能夠對目標市場及客戶做出更準確的分析與評價,協助它們實現服務轉型與升級;三是在互聯網浪潮的沖擊下必須轉型的傳統企業,這類企業必須抓住大數據這一機遇,大膽革新、適時轉型,否則必將被互聯網企業所淘汰。
在未來,數據有可能逐漸成為企業的一種資產,并逐漸實現數據產業向傳統企業的供應鏈模式發展,最終形成“數據供應鏈”模式。在這種情況下會出現以下兩個較為明顯的現象:一是外部數據的重要性日益超過內部數據,因為在互聯網時代下,單一企業的內部數據與整個互聯網數據比較起來猶如滄海一粟,企業外部的海量數據將發揮更重要的作用;二是如果一個企業能夠提供包括數據供應、數據整合與加工、數據應用等多個環節服務,那么這樣的企業會有較為明顯的綜合競爭優勢。在這樣的時代發展趨勢下,一直做企業服務的行業巨頭優勢將不復存在,不得不接受新興互聯網企業的挑戰,開啟新一輪的激烈競爭。以IBM為例,上一個十年,他們拋棄了個人計算機業務,成功將業務重心轉向了軟件和服務。而這次將它遠離服務與咨詢業務,更多地專注于因大數據分析軟件而帶來的全新業務增長點。IBM執行總裁羅睿蘭認為:“數據將成為一切行業當中決定勝負的根本因素,最終數據將成為人類至關重要的自然資源。”IBM積極地提出了“大數據平臺”架構,該平臺的四大核心能力包括Hadoop系統、流計算(stream computing)、數據倉庫(data warehouse)和信息整合與治理(information integration and governance)。
(四)個人大數據
顧名思義,個人大數據就是與個人相關聯的各種有價值數據信息的總和。這些數據集被有效采集后,經本人授權后提供給第三方進行處理和使用,并獲得第三方提供的數據服務。以個人為中心的大數據具有以下幾個特征:一是數據僅保存在個人中心,只有經過本人的授權,其他第三方機構才能夠使用,并且有一定的使用期限,必須接受監管,用后即焚;二是采集個人數據應該明確分類,除了國家立法明確要求接受監控的數據外,其他類型的數據都由用戶自己決定是否被采集;三是數據的使用將只能由用戶進行授權,數據中心可幫助監控個人數據的整個生命周期。
在此,對個人大數據時代的光明前景進行大膽展望。未來,每個用戶都可以在互聯網上注冊個人的數據中心,以存儲個人的大數據信息。其中,有一部分個人數據是無須個人授權即可提供給國家相關部門進行實時監控的,如罪案預防監控中心可以實時監控本地區每個人的情緒和心理狀態,以預防自殺和犯罪的發生。除此之外,用戶還可決定其他個人數據哪些可以被采集,并通過可穿戴設備或植入芯片等感知技術來采集捕獲個人的大數據,如牙齒監控數據、心率數據、體溫數據、運動數據、視力數據、記憶能力、飲食數據、購物數據、地理位置信息、社會關系數據等。用戶可以將其中的牙齒監測數據授權給牙科診所使用,由他們監控和使用這些數據,進而為用戶制訂有效的牙齒防治和維護計劃;也可以將個人的運動數據授權提供給某運動健身機構,由他們監測自己的身體運動機能,并有針對地制訂和調整個人的運動計劃;還可以將個人的消費數據授權給金融理財機構,由他們幫助制訂合理的理財計劃并對收益進行預測。但是,個人數據中心的產生必然伴隨著個人數據隱私被泄露的隱患,所以未來在推進個人數據中心建設的進程中需要解決的問題是如何通過有效的數據監管措施來保障數據的安全與合理利用。