官术网_书友最值得收藏!

第一節 大數據的認識

一、大數據的概念

國務院2015年8月31日印發的《促進大數據發展行動綱要》這樣定義大數據:是以容量大、類型多、存取速度快、應用價值高為主要特征的數據集合,正快速發展為對數量巨大、來源分散、格式多樣的數據進行采集、存儲和關聯分析,從中發現新知識、創造新價值、提升新能力的新一代信息技術和服務業態。具體如下圖所示。

大數據的概念

二、大數據的基本特征

“大”是大數據的一個重要特征,但遠遠不是全部。麥肯錫全球研究所認為,大數據具有下圖所示的“4V”特征。

大數據的特征

1.規模性

在互聯網及移動互聯網飛速發展的時代,從計算機端到移動端,再到云端,每天都在產生著大量的數據,這些數據都潛藏著它的價值,數據資產的體量大也是大數據的首要特點,所以才被稱作“大數據”。

實質上,在某種程度上來說,數據的數量級的大小并不重要,重要的是數據具有完整性。數據規模性的應用有如下的體現。

比如,對每天12 tb的推特(Twitter)進行分析,了解人們的心理狀態,可以用于情感性產品的研究和開發;基于臉書(Facebook)上成千上萬條信息的分析,可以幫助人們處理現實中的朋友圈的利益關系。

2.多樣性

多樣性指有多種途徑來源的關系型和非關系型數據。這也意味著要在海量、種類繁多的數據間發現其內在關聯。互聯網時代,各種設備通過網絡連成了一個整體。進入以互動為特征的Web 2.0時代,個人計算機用戶不僅可以通過網絡獲取信息,還成為了信息的制造者和傳播者。

這個階段,不僅是數據量開始了爆炸式增長,數據種類也開始變得繁多。除了簡單的文本分析外,還可以對傳感器數據、音頻、視頻、日志文件、點擊量以及其他任何可用的信息進行分析。

比如,在客戶數據庫中不僅要關注名稱和地址,還包括客戶所從事的職業、興趣愛好、社會關系等。利用大數據多樣性的原理就是:保留一切你需要的對你有用的信息,舍棄那些你不需要的信息;發現那些有關聯的數據,加以收集、分析、加工,使其變為可用的信息。

3.高速性

高速性主要表現為數據流和大數據的移動性。現實中則體現在對數據的實時性需求上。隨著移動網絡的發展,人們對數據的實時應用需求更加普遍,如通過手持終端設備關注天氣、交通、物流等信息。高速性要求具有時間敏感性和決策性的分析——能在第一時間抓住重要事件發生的信息,如當有大量的數據輸入時(需要排除一些無用的數據)或者需要馬上做出決定的情況。

比如,一天之內需要審查500萬起潛在的貿易欺詐案件;需要分析5億條實時呼叫的詳細記錄,以預測客戶的流失率。

4.價值性

價值性體現出的是大數據運用的真實意義所在。其價值具有稀缺性、不確定性和多樣性。當數據量呈指數增長的同時,隱藏在海量數據中的有用信息卻沒有相應比例增長;相反,價值密度的高低常常與數據總量的大小成反比,這樣反而使我們獲取有用信息的難度加大。

以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。

三、大數據的處理流程

在科技發展的同時,各種各樣的行業和領域也在蓬勃發展,大量而又多樣的數據滲透進了這些領域,又相應地產生了更多的數據。如今,已然是一個大數據橫行的天下,數據已成為非常重要的生產因素。

大數據的整個處理流程可以概括為下圖所示的四步。

大數據的處理流程

1.大數據的采集

大數據的采集需要有龐大的數據庫的支撐,有的時候也會利用多個數據庫同時進行大數據的采集,現在很多商家如一些購物網站都會通過關系數據庫來存儲事務數據,對于一些用戶使用量或者訪問量比較多的網站,事務數據的數據量驚人。

在大數據的采集過程中,因為這些網站的訪問以及操作還在繼續,對于大數據的采集中會有并發的訪問量,對于數據庫的負載以及多個數據庫之間進行切換等都存在挑戰,也是很多數據庫系統需要考慮的設計因素。

2.大數據的預處理

將各個分散的數據庫采集來的數據全部導入一個大的數據庫,這樣才能對數據進行集中的處理,也可以依據一些數據的特征或者需要進行大數據的分析,初步對各種數據進行粗選,這就是大數據的預處理。當然,因為數據量比較大,各個采集端的數據流入分析數據庫中,也要考慮大數據庫的容量。

3.大數據的統計

對已經匯總的數據進行分析并進行分類,這是大數據分析的過程,主要根據數據的特點進行篩選,可以利用一些大數據分析的工具,例如Infobright列式存儲工具,對數據進行不同的分類之后,為下一步的批處理做準備。

大數據的統計過程中,由于涉及的數據量大,因此對于統計工具的使用以及需要分類的關鍵字等要求比較高,能不能讓數據都精確地歸類到相應的批次,這也是之后進行數據挖掘價值準不準確的基礎。

4.大數據的挖掘

大數據的挖掘是指對之前已經做好統計的大數據基于不同的需求,利用數據挖掘算法進行挖掘。數據挖掘的算法都比較復雜,這也是考驗人工的智能發展的一個環節,只有精確合適的算法才能得出有價值的數據分析結果,大數據的挖掘的過程中涉及的數據量和計算量也是龐大并且復雜的。

微看點

一個大數據的普遍的流程就是以上的四個,這個過程要涉及龐大的數據以及使用到不同的數據分析工具,是一個復雜的工作流程。

四、大數據的價值體現

巨量數據正在成為一種資源,一種生產要素,滲透至各個領域,而擁有大數據能力,即善于聚合信息并有效利用數據,將會帶來層出不窮的創新。人們對于海量數據的運用,將預示著新一波生產率增長和消費者盈余浪潮的到來,具體如下圖所示。

大數據的價值體現

1.對于政府來說,大數據是提升效能的新手段

大數據可提高政府效率,也可有效監督政府的權力。有了大數據的支持,政府管理工作將會更高效、精準、科學,并能有效約束公職人員、監督公共資源的使用。國務院辦公廳2015年7月發布的《關于運用大數據加強對市場主體服務和監管的若干意見》指出,大數據“有利于政府充分獲取和運用信息,更加準確地了解市場主體需求,提高服務和監管的針對性、有效性”。

比如,國家工商總局與百度合作,開展大數據監管,打擊假冒偽劣商品。北京市工商局聯手互聯網公司,把大數據運用到對電商的監管,利用搜索引擎和大數據技術查處違規行為。

天津建成全天候緊盯、全員運用大數據的智慧型“審計監督一張網”管理系統,實現對財政資金和公共資金等的實時監督。

貴陽市交管部門從技術上推進權力在陽光下運行,推出“數據鐵籠”,監督交警執法,實現辦案“件件有對象、處處留痕跡”。

旅游景區與電信運營商合作,通過手機信號監測預告景區人氣……

2.對于經濟來說,大數據成為驅動增長的新動力

大數據正在創新經濟運行模式,將對經濟轉型升級產生重要意義。大數據促進市場資源配置的高效與優化,推動企業從粗放式生產轉向“以用戶為中心”,激發創業創新熱潮。在經濟增速放緩的背景下,將更加激勵國內企業利用大數據挖掘增長潛力。

比如,三一重工建起自己的大數據儲存分析平臺,通過大數據分析,優化配件周轉率,在保證服務水平的前提下,庫存大幅下降近50%,配件需求預測準確率提升25個百分點,從而大大降低了運營成本。

與其他傳統家電生產企業先設計產品,再生產、銷售不同,海爾是先銷售產品,再根據大數據反饋進行產品改進、設計、生產。

3.對于百姓來說,大數據將改變傳統的生活模式

大數據已經“潤物細無聲”地滲入百姓生活,正改變著傳統的生活方式。許多人都在無意識當中已經使用數據做決策了,出行前查路況、在手機軟件上找附近餐館……同時,每個人也成為大數據的數據源,我們使用互聯網的行為,都會產生數據。

比如,當你打開曾經瀏覽過的網頁,都會自動彈出“猜你喜歡”,而“喜歡”的東西都是平臺根據你以往看過、買過留下的“痕跡”,經數據分析篩選后推送的。大數據時代的到來,會讓商家更快更高效地實現以用戶為中心,提供各種服務。

大數據讓百姓生活更智能更健康。

比如,廣東、上海、重慶等地智能公交站牌已經“上崗”,它通過匯集道路、公交實時信息的大數據終端,及時發布公交車什么時候到站,所去方向是否擁堵,車上的人多不多……

另外,還可通過穿戴設備將相關數據傳至連接的后臺,經過數據終端分析,告訴你運動及健康狀況。

五、大數據的發展趨勢

2016年,各行各業的大數據應用都漸漸從空洞的理論落地,被專家們稱為“大數據元年”。無論如何,大數據已經成為IT領域的流行趨勢。

1.數據量將持續增長

數據量的不斷增加意味著通過數據的快速分析獲取寶貴的市場洞察已經成為大數據業務運營的關鍵環節。機構和企業組織必須將其內部未被利用的每一字節的大數據,也就是所謂的“黑暗數據”(Dark Data)加以合理化整合并轉化成可以利用的數據資源。

如果大數據還沒有為你的企業帶來可供戰略參考用的新見解,那么在2017年記得為你所在的企業提出有關大數據的創新計劃,只有這樣才能提升企業的競爭優勢。

2.利用大數據提升客戶體驗

對于企業的并購,可以將遺留下來的數據資源轉交到分包商系統,這種大數據的使用方式除了可以改進消費者體驗之外,還可以升級核心系統。

讓消費者使用靈活性的自助服務方式可以讓大數據分析成為企業快速掌握市場發展的主導趨勢,還可以為客戶需求增長機遇帶來更多有競爭力的市場洞察。

利用大數據更深入地了解客戶需求可以讓搭配銷售或者促銷活動提高企業的一線財政收入水平,同時還可以免除因客戶流失所導致的業績縮水風險。

3.Hadoop的應用領域將更加廣泛

將會有越來越多的企業選擇采用Hadoop和其他類型的大數據存儲架構,相應地,分包商們也將為業主提供更加有創新功能的Hadoop解決方案。

當Hadoop架構占據有利地位時,企業使用高級分析方法所處理的大量數據可以為盈利決策找到寶貴信息的“金礦”。

4.預測分析將嶄露頭角

精準地預測未來可能發生的行為和事件,可以提高企業的利潤。對欺詐行為的快速鑒別和預判技術將會迎來質的飛躍,同時企業運營的卓越性將進一步得到改進。

5.基于云的數據分析將獲得更多關注

將數據分析業務遷移到云端可以加速企業采用最新的技術能力,并實現數據資源到行動計劃的快速轉變。數據分析業務轉移到云端之后,企業的運營和技術維護成本也將削減不少。

6.向信息學領域進軍并注重數據價值的界定

使用信息學助推復雜數據收集、分析與可視化技術的整合可以從數據資源中推導出企業所需的收益來源。從未被充分利用的數據中提取資源可以提高企業運營績效。

7.數據可視化將放大商業智能的作用與優勢

數據可視化技術讓隱藏在大數據資源背后的真相呈現在眾人面前。無論數據怎樣形成,無論數據資源在哪里,圖形數據可視化可以讓企業組織在業務繁忙的同時對數據進行檢索與處理。

8.物聯網、云技術、大數據和網絡安全深層融合

數據管理技術,比如數據質量控制、數據準備、數據分析以及數據整合等方面的融合程度將達到新的高度。當我們對智能設備的依賴程度增加時,互通性以及機器學習將會成為保護資產免遭網絡安全危害的重要手段。

9.提升數字渠道優化與多渠道體驗

以客戶偏好的渠道與其保持有效接觸可以讓企業在傳統渠道與數字渠道之間找到最佳平衡點。通過不同渠道不斷尋求創新手段,提高客戶體驗度,可以帶來企業的競爭優勢。

10.數據準備和分析的自助式服務將提高效率

不管企業數據類型屬于結構化、半結構化還是非結構化,自助服務式的數據預備工具都可以加速企業數據準備的時間。使用自助式數據技術可以降低企業對開發團隊的依賴程度,從而更重視用戶的使用感受,同時企業的運營效率也可以提升。

六、大數據的隱私保護

由于涉及我們每個人的自身利益,大數據的隱私保護是大數據產業需要正面面對的問題。大數據在采集過程中必定會涉及隱私數據的收集,如果其保護得不好,將會造成嚴重的后果,成為大數據產業發展的瓶頸。

過度強調大數據的商業應用而忽視大數據產業的隱私保護,將會產生災難性的后果,大數據產業的發展可能會因此被禁止。過度強調隱私保護而不發展大數據產業也是一個錯誤的選擇,可能會錯失一個高速發展的機遇。

微看點

大數據產業發展要建立在隱私保護基礎之上,同時隱私保護也將通過適當約束來助推大數據產業的發展。

大數據企業在采集外部數據時,應該注意盡量不要收集可以識別出個人的PII信息,參照美國個人隱私定義,PII信息包括姓名、地址、手機號碼、身份證號、駕駛證號、銀行賬號、借記卡/信用卡號。大數據企業在使用自身擁有的信息時也要注意保護敏感信息,比如民族、政治意見、宗教信仰、健康/醫療信息、婚姻狀況、年齡、性別、犯罪記錄、個人喜好、標準IP地址等。

大數據企業應該在其公司的章程和文件中體現出對個人隱私數據的保護,堅持遵守全球隱私保護7條原則,具體如下圖所示。

大數據企業在利用隱私數據時將要特別注意對其的保護,即使在客戶授權的前提下,也要注意數據的使用場合和揭示方式,不要向外泄露受保護的PII信息。

應該從企業法律意識、國家法律法規、數據保護技術等幾個方面入手進行大數據隱私保護,這是大數據產業發展的一個重要前提,解決了大數據隱私保護問題才能打開大數據產業發展的空間,大數據產業發展才有明確的未來。

全球隱私保護原則

主站蜘蛛池模板: 沙雅县| 申扎县| 兴仁县| 彭泽县| 长兴县| 宜宾县| 城步| 长子县| 蚌埠市| 泸西县| 林西县| 西乌珠穆沁旗| 裕民县| 潞城市| 顺义区| 内丘县| 章丘市| 上饶市| 马尔康县| 视频| 阿拉尔市| 白玉县| 马尔康县| 卓尼县| 武定县| 商水县| 双鸭山市| 潍坊市| 黑龙江省| 绥阳县| 桃江县| 扶余县| 博湖县| 长子县| 九龙坡区| 黔东| 赣州市| 民丰县| 宝兴县| 商都县| 高密市|