- 電商大數據:數據化管理與運營之道(第2版)
- 李必文
- 8字
- 2019-01-03 15:31:02
3.2 三言兩語大數據
3.2.1 信息量泛濫的社會
大數據可謂“炙手可熱”,有大數據新興產業的真實熱度,也有大數據人為炒作起來的虛假熱度。“大數據”,顧名思義是數據量級特別大的數據。那量級達到什么程度才算是“大數據”呢?
首先我們簡單了解一下用以測量數據容量的“度量衡”。
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
1EB=1024PB
1ZB=1024EB
國際數據公司(IDC)的研究結果表明,尤其是最近幾年,各種信息源產生的數據總量,如圖3-2所示。

圖3-2 全球產生的數據量(單位:ZB)
據說到2012年為止,人類生產的所有印刷材料的數據量是200PB,全人類歷史上說過的所有話的數據量大約5EB之多。
有學者認為,大數據概念是炒冷飯,因為“數據概念”在之前就已經風靡過了;這說明對大數據的理解還比較膚淺。數據時時刻刻都存在,只是,信息社會數據增量越來越快。如此大規模的數據,一些價值發現和規則挖掘甚至數據中心的處理手段都大相徑庭。
學術上嚴格定義,一般把量級達到1PB的規模數據稱為“大數據”。同時規定,“大數據”符合所謂的“4V特征”(即Volume、Variety、Velocity、Value),不過,真正能達到學術層次的大數據量級的企業和政府結構目前還寥寥無幾,僅有大型銀行、大型互聯網公司、大型通信運營商等,以及人類基因序列數據等能達到這個級別。不過,大數據也是結構化的,比如多數大數據來自監控攝像頭的視頻、商業視頻網站的影像資料,以及企業和政府機構的業務流水,價值密度低。
不過需要說明的是,在很多情況下,大數據的量級是自定義的,沒有達到1PB在一些特定或者慣性環境下仍然可以喚作“大數據”。環境和前提不同,大數據的定義自然會有所不同。
筆者以為,大數據的本質是信息鏈接,無它。例如,國內某股份制銀行,擁有140套IT系統,34萬數據存儲字段和100多臺數據服務器,且每個IT系統之間數據割裂,完全成了獨立的信息孤島,但是實現大數據之后,信息就可以通過直接和間接的主鍵鏈接起來。
本書約定,數據量級特別大的數據(哪怕是1PB以上的規模)并不一定是大數據,只有各種數據源之間實現了信息鏈接才叫“大數據”;不論是什么數據,只有創造價值才會有價值,反之則毫無價值!大數據產業不是點綴在企業和政務報表中的可有可無的產物,而是深入捆綁在具體業務之中。
3.2.2 泛濫的數據如何有效存儲
每天都產生大量的數據需要及時保存下來,且從信息安全的角度來說,數據還需要備份,占用的服務器及耗費的人力和財力對于任何一家機構來說都是一個痛,因為這需要相當昂貴的投資;最關鍵的是,收集到的“大數據”對于實際業務的開展是否有價值尚未知曉,如果沒有用或者用不上,那就是浪費。所以對于大數據,科學、節儉的存儲方式顯得尤為重要。
1.更換更高配置的硬件服務器;當單純更換服務器已經無濟于事的時候,需采用更加先進的集成存儲和分析技術。
2.根據商業目的有選擇性地存儲數據,及時丟棄一部分無用數據,這樣做其實有信息丟失的隱患。
3.采擷數據的數字特征進行存儲,比如一個客戶歷年的購買流水就可以將其濃縮成最早一次購買日期、最近一次購買日期、最大購買金額、最小購買金額、總購買次數、總購買金額等來替代客戶具體的交易行為明細數據,如此總數據量會壓縮很多。
4.數據區分年限分段管理;封存三年以上的數據,分析使用最近三年的數據,之前的歷史數據不去分析,這種方法顯然簡單粗暴。
5.還有其他的辦法,比如云存儲介質。
3.2.3 迄今為止大數據成功的部分案例——沒有啤酒+尿布
大數據成功應用案例,這里沒有沃爾瑪的啤酒和尿布的經典傳奇,因為筆者去沃爾瑪購物從未見到啤酒和尿布放在一起,啤酒總是和酒類放在一起。大數據應用不能只停留在人云亦云的概念上,否則真的只剩下概念了。
1.谷歌和百度的搜索引擎
谷歌和百度這兩家互聯網巨頭都是通過變形的pagerank算法遍歷對全球幾百億網站進行競價排名從而獲利。搜索技術的特點是雖技術復雜但是單一,機器作業人為干涉少。
一直以來網絡搜索和電子郵件是當今社會最重要的兩項互聯網應用(現在增加“點贊”也是一項重要的應用),讀者應該都能感同身受,故不再贅述。技術細節亦不在本書討論范圍之內。谷歌和百度的出現,讓宅在深處的數學家及工程師們看到了各自的價值曙光。
谷歌和百度是早期真正意義上的大數據公司,因為他們是完全依仗大數據進行盈利且養活整個公司員工的互聯網巨頭,而不是把大數據作為公司戰略的一種補充或者點綴。
2.各種導向性標簽
對于客戶的各種口碑難以在網頁上一一簡潔呈現,依據大數據制成評價標簽可以很好地引導客戶進行消費抉擇。如圖3-3所示,為評價標簽簇。

圖3-3 評價標簽簇
3.推薦系統
推薦系統是老生常談的大數據產品了。系統的輸入、推薦算法、輸出三個層面共同構成了完整的推薦系統;其中,推薦算法為核心。推薦系統的算法有很多,比如常見的協同過濾算法。一個協同過濾算法的基本方法是對訪客或者成交客戶遍歷搜索,以便找到需求或者興趣相似的簇群。算法會對這些人群偏好的內容進行考察,然后個性化地推薦給這類群體,基本原理如圖3-4所示。

圖3-4 分類算法示意圖
需要特別說明的是,并不是任何情況下根據大數據都能設計推薦系統,這里的前提條件是推薦環境一定具有“容錯性”,比如說醫院根據孕婦的驗尿報告,若系統自動化推薦用藥和護理方案,這肯定不行。因為在這種環境下不具備容錯性,只要機器錯了一次后果都是不堪設想的。
推薦系統跟搜索引擎在技術上有相似的地方。目前,推薦系統已經發展得非常成熟了,也非常精細和人性化,比如能做到基于Viterbi算法的消費者情緒推薦,甚至可以做到根據女性的例假生理周期來推介商品和廣告。因為,根據研究結果,女性在不同的生理周期對于同一份廣告的感受度差異顯著。
個性化推薦的目的是為了改善信息的分配和使用,目的在于給用戶預先去噪,用戶都是很懶的——懶得尋找,懶得比較。
4.排行榜
例如小說排行榜、電影排行榜、美食口碑排行榜等都是大數據排行榜的應用。
5.消費者活動半徑的描繪
可以依據網購郵寄地址、免費Wi-Fi獲取地址及消費流水,清晰地描述客戶群的特征,從而精確對目標客戶群體畫像成為可能。
6.打車軟件
打車軟件市場上主要以滴滴+快的兩家為主。打車軟件原理是基于LBS地理位置的大數據服務。以司機為圓心的一組同心圓,以打車者為中心的一組同心圓,打車軟件的本質就是研究兩組同心圓最佳及最快的匹配方式,如圖3-5所示。

圖3-5 打車用戶與出租車司機地理位置同心圓匹配示意圖
7.大數據醫療
大數據醫療已漸成雛形。任何一個信息可能不對稱的場景,大數據越有可能釋放威力。
大數據將在以下但不局限以下方面得到系統性的應用。
(1)網絡在線掛號。
(2)掛號、繳費、打印病歷等完全封閉式信息流。
(3)患者好評度是醫生績效的主要評定依據。
(4)機器學習海量病歷樣本的先驗知識并廣泛應用在疾病診斷和預防方面。
大數據應用現在已經非常廣泛,就不再一一列舉。大數據對于商業形態的影響是循序漸進、潛移默化的,但是對政府機構的沖擊可能是更加深遠的,比如某個人身份信息進行變更,需奔波于不同的政府機關單位、出具各種證明。我們已經知道大數據的本質是信息鏈接,一旦實現了大數據,這些平時看起來非常重要的政府辦事窗口及其配套都面臨下崗的風險。再看如火如荼的不動產聯網登記制度,本質上也是大數據,同樣一旦實現了信息鏈接,其影響力將會輻射到各種犄角旮旯。
大數據最大的應用場景是商業和政府的各種資源優化配置與規劃。
在一般情況下,大數據看趨勢,看宏觀,看周期,看機會,看行業,雖然大數據本身噪聲可能較大,刷單數據(即虛假交易數據)、長尾數據(即奇異點數據,比如超出常規的天價商品)加上其他情形足以使數據嚴重變形,不過因為大數據本身巨大的量級使之具備較強的容錯性,所以對于事物運轉大勢的判斷通常不會有錯;小數據精細,主要用來看細節,看微觀,看單點,看局部,看能不能錦上添花,但是通常改變不了格局和形式。如果用大數據看細節,則可能會造成意想不到的后果,舉例來說,用網絡爬蟲爬取一部電影的所有口碑和人氣(新媒體轉發數、評論數、點贊數、收藏數)數據來預測電影的票房很可能武功全廢,這些數據很大程度是刷出來的,不純凈;但是如果用大數據來觀察電影上線的最佳檔期比如假日波段、每周排片率、每日觀影高峰時段勢必不會有錯。