官术网_书友最值得收藏!

第1章 “互聯網+”的技術創新

1.1 大數據

大數據(big data)指的是所涉及的數據量規模大到無法通過人工在合理時間內獲取、記錄、管理、篩選、分享,并整理成為人類所能解讀的信息,而需要運用新處理模式才能達到更強的決策力、洞察力和流程優化能力,同時具有海量、高增長率和多樣化特征的信息資產。百度百科、維基百科“大數據”詞條整合。

除了獲取龐大的數據信息之外,大數據技術運用更為重要的意義是對這些特定內涵的數據進行專業化的處理,從而實現數據的“增值”。

1.1.1 大數據的4V模型

業內對于大數據的特征多有獨到見解和表述,其中比較有代表性,并且已經得到廣泛認可的是2001年由Doug Laney提出的“3V”模型,包括數量(volume)、速度(velocity)和種類(variety)。麥塔集團(META Group)分析師Doug Laney在其報告中針對大數據提出“3-D數據管理”的觀點,認為數據成長將朝著數據體量規模(volume)、數據處理速度(velocity)、數據格式多樣化(variety)三個方向發展,三者統稱為3V。在此基礎上,隨著大數據技術的發展和應用,更多新的特征被提出。例如,互聯網數據中心(Internet Data Center, IDC)認為大數據應當具有價值性(value),而科技大廠IBM則認為大數據還應當具有真實性(veracity)。如今,大數據的特征已經被擴展到了“11V”。本書只對較為常用的“4V”(volume, velocity, variety, value)模型進行分析。

Volume指的是數據龐大規模和完備的記載能力。在大數據時代,數據加工處理能力和網絡寬帶飛速提升,社交網絡運用日益成熟,數據的產生量和存儲量也隨之巨幅攀升,存儲單位輕而易舉地達到TB、PB級別,甚至向EB、ZB級別擴展。1TB=1024GB=1048576MB,1PB=1024TB,1EB=1024PB,1ZB=1024EB.百度網站的每日檢索數據表明,其新首頁導航每天提供的數據超過1.5PB,如果把這些數據全部打印出來,需要超過5000億張A4紙;而有資料證實,全人類從古至今生產的所有印刷材料的數據量總和只有200PB,所有說過的話的數據量也不過5EB。也就是說,用語言表述的整個人類歷史都可以被大數據完全記錄下來。更重要的是,這些數據具有完整的規模性,可以被系統地利用和開發。

Velocity指的是大數據的流動性,體現在對數據的實時獲取上。隨著移動互聯網的發展,我們的生活越來越依賴于天氣、交通、物流等各方面的即時信息。這就要求數據處理有高度的時間敏感性,能夠在第一時間抓住重要事件的發生信息,快速做出分析并以條理化的方式呈現,以為決策服務。在極短的時間內獲取高價值的信息是大數據技術區別于傳統數據技術的根本,被稱為“一秒定律”。根據IDC發布的“數字宇宙”報告全稱《大數據,更大的數字身影,最大增長在遠東》,由EMC公司贊助IDC發布,預測了從2013—2020年間的大數據發展狀況。,全球數據使用量不斷膨脹,預計到2020年將達到40ZB,但其中僅有0.4%的數據得到了合理的分析利用。面對如此情形,我們可以說,對數據的分析和處理效率將成為未來科技和企業發展的生命。

Variety指的是多種途徑來源的結構性和非結構性數據。Web 2.0時代是以互動為特征的,人們既是網絡信息的獲取者,同時也是網絡信息的制造者和傳播者。這使得數據量發生了爆炸式的增長,其來源和種類也因而變得更為復雜。過去,人們接觸較多的是文本一類的結構化數據;如今,包括在線音視頻、網絡日志、圖片和定位信息等在內的非結構化數據越來越多地被使用和記錄。在小數據時代,人們總是花費很多時間和精力對數據進行甄別,以確保數據的質量。而在大數據時代,看似在宏觀上失去了數據的精準性,卻在微觀上更強化了這一點。因為利用大數據的多樣性,我們可以保留一切有用的信息,發現其內在的關系,從而進行有目的的分析和加工。

Value指的是大數據技術內涵的真實意義,即從數據中找到其應有的價值。2010年10月23日,英國《衛報》發表了一篇觸目驚心的“數據新聞”,報社利用維基數據將伊拉克戰爭的傷亡情況標注在地圖上。地圖上的標注點多達39萬個,每一個標注點都表示一個傷亡事件,鼠標滑過標注點時,該事件涉及的人數、時間、具體原因等詳細情況會以窗口形式彈出。報道一經刊出立即引起舉國震動,迫使英國政府最終撤軍伊拉克。互聯網女王Mary Meeker在2012年的互聯網發展趨勢報告中用兩張圖片生動地描述了大數據的特征:一張是整齊堆放的稻草;另一張是稻草堆中一根縫衣針的特寫。這兩張圖非常生動地說明,大數據技術可以幫助我們在龐雜繁復的信息中找到真正有價值的東西,哪怕它像在稻草中的一枚小小的縫衣針那樣難以發覺。然而,究竟在龐大的數據池中能否找到有價值的信息,找到多少信息,找到什么樣的信息都是不確定的。在大數據時代,價值密度的高低與數據體量的大小總是反向變化,就拿我們通常看的視頻來說,一小時左右的視頻片段里,包含有用的信息的可能只有那么一兩秒。

1.1.2 關注相關性

大數據的使用往往更關注幾件事情同時出現的相關性而不僅是因果關系。特別是在使用大數據進行產品營銷時,大數據首先關注的是哪幾類產品同時被顧客消費了,從而反向倒推原因,更具有實戰性。沃爾瑪將紙尿褲和啤酒進行聯合促銷就是大數據營銷中的一個經典案例。沃爾瑪公司在分析賣場銷售數據時驚訝地發現,男性顧客購買嬰兒紙尿褲和啤酒的數量呈現正向相關性。沃爾瑪認為可能的原因是,在家庭中,嬰兒通常由母親照顧,父親則被委以外出購買物品的任務,男性在購買嬰兒紙尿褲時,會隨手搭配幾瓶啤酒犒勞自己。由此,商場嘗試推出了紙尿褲和啤酒的聯合促銷手段,將原本相隔甚遠的母嬰用品和酒類飲料兩個區域安排在一起,減少顧客的行走時間,并對當地新婚新育家庭的消費能力進行了調查,根據結果調整了兩類商品的售價。果不其然,經過調整,紙尿褲和啤酒的銷量都大幅增加。另外一個例子是,明尼蘇達州一位中年男子怒指Target百貨公司將嬰兒產品的優惠券寄給他尚在讀高中的16歲女兒。然而沒過多久,該顧客便致電道歉,因為女兒已經向他坦白自己真的懷孕了。事情是這樣的:Target百貨收集用戶所有的購物數據(線上和線下),然后通過相關性分析得出一些關系和規律,從而進行針對性的產品推銷。16歲的女孩由于之前瀏覽過相關的產品,因而收到了營銷優惠券。

上述兩個案例中的紙尿褲和啤酒,以及高中生和嬰兒用品本身看起來并沒有因果關系,其結果卻呈現出了一定的相關性,這就是我們應該關注的問題,即數據之間的潛在關聯性往往超出我們的認識。在大數據時代,我們關注更多的是“是什么”,而不是“為什么”,我們根據“是什么”來建立新的聯系并分析,而不是基于已有的經驗判斷。

1.1.3 大數據預測

預測是使用大數據的基本出發點。通過大數據發現的歷史規律往往具有預測性,它能指導我們做出科學的判斷。谷歌公司從創立之初就一直留存著人們的搜索歷史信息。這些數據能夠幫助谷歌進行很多有意義的研究。例如,谷歌的工程師利用人們搜索用到的諸如“感冒”“喉嚨痛”等詞語來判斷甲型H1N1流感等疾病的傳播途徑,因為通常得感冒的人更會檢索相關信息。這個做法獲得了非常好的效果,比官方醫衛組織提早了兩個星期了解到甲型H1N1流感的傳播路徑。喬布斯花費幾十萬美元對自身進行了完整的基因采集,他得到的不是一個基因樣本,而是包含全套DNA信息的數據文檔,并且還特地對腫瘤DNA進行了排序。醫生根據所得到的基因數據按需治療,最終成功幫助喬布斯延長了好幾年生命,成就了蘋果帝國,也改變了你我的生活。

上述兩個案例所體現的正是大數據的預測性,它們共同的邏輯基礎在于,每一種看似不可預料的變化在發生前一定會有所征兆,也就是說,每一件事情的發生都是有跡可循的。通過對大數據進行分析和加工,我們可以更加容易地找到征兆與變化之間的關系和規律,從而進行一定程度的預測,并提早設計好應對預案。

主站蜘蛛池模板: 江西省| 开平市| 凤山市| 额敏县| 和田县| 义马市| 开原市| 二连浩特市| 梨树县| 呈贡县| 高青县| 霍城县| 建阳市| 曲松县| 嫩江县| 青川县| 长沙市| 博湖县| 竹溪县| 博客| 安义县| 互助| 揭阳市| 沁水县| 河池市| 镇巴县| 班戈县| 巴彦淖尔市| 甘洛县| 玛沁县| 府谷县| 潼关县| 临澧县| 九江市| 武宁县| 洪洞县| 通江县| 博白县| 太康县| 乐平市| 辛集市|