第一節 大數據思維的內涵與構成
當數據處理技術已經發生了翻天覆地的變化時,人們對數據的觀點、思維方式也隨之發生了轉變。實際上,大數據與六個重大的思維轉變有關,這六個轉變是相互聯系、互為因果,并相互作用的,它帶來了傳統思維方式的變革。
一、總體代替樣本
數據處理技術的革新使得我們有能力,也有更大的需求去尋找所有的數據,利用全部數據進行分析,而不再僅僅依靠樣本數據。
在過去,采樣的目的就是利用最少的數據獲取最多的信息,以降低信息獲取的成本。但是,在我們可以用更低廉的成本獲得大規模數據的時候,采樣方法就失去了其原有的意義。數據處理技術已經發生了巨大的改變,但我們的思維與方法無法跟上這種改變。
采樣一直存在著得到我們廣泛認可但始終有意避開的缺陷,即采樣忽視了細節的研究,但是現在這個缺陷越來越難以忽視了。雖然我們別無選擇,只能使用采樣分析法來進行考察,但是在很多領域,從收集一些數據到收集盡可能多的數據的轉變已經發生了。如果可能,我們就會收集所有的數據,即“樣本=總體”。
正如我們所看到的,“樣本=總體”是指我們能對數據進行深度探討,而采樣幾乎無法達到這樣的效果。例如,用采樣的方法分析整個人口的情況,正確率可達97%。對于某些事物來說,3%的錯誤率是可以接受的。但是無法得到一些微觀信息,甚至會失去對某些類別信息深入研究的能力。生活中真正有趣的事情常藏匿在細節之中,這是采樣分析無法捕捉到的。
所以,我們現在經常會放棄樣本分析這條捷徑,選擇收集全面而完整的數據。我們需要足夠的數據處理和存儲能力,也需要更先進的分析技術。同時,簡單廉價的數據收集方法也很重要。過去,這些問題中的任何一個都很棘手。在一個資源有限的時代,要解決這些問題需要付出很高的代價。但是現在,解決這些難題已經變得簡單易行。曾經只有大公司才能做到的事情,現在絕大部分的公司都可以做到了。
通過使用所有的數據,我們可以發現如若不然,則將會在大量數據中淹沒的情況。例如,信用卡詐騙是通過觀察異常情況來識別的,只有掌握了所有的數據才能做到這一點。在這種情況下,異常值是最有用的信息,你可以把它與正常交易情況進行對比。這是一個大數據問題。而且,因為交易是即時的,所以你的數據分析也應該是即時的。
大數據技術的運用首先要數據全量在線?,F在太多系統都是孤立的,銀行對公、對私,還有卡業務都是分開的,當把所有業務糅合在一起時,會發現很多客觀規律?,F在有了大規模的計算能力,我們就不需要進行干預,完全讓機器自己去找規律,讓機器去找出海量數據中的建模規則,這完全是黑箱建模的思路。黑箱建模讓我們發現了很多以前我們不知道的內容和規律。比如,以往認為反洗錢只存在40多種在線規則,而利用機器學習可以推翻這一結論,發現了1 000多條在線規則。針對保險用戶,我們也可以通過異于常理的現象發現商機。比如,在9 000多萬用戶中有百分之零點幾的用戶的年收入4萬多元,但買了7萬多元的保險產品。那么相應的銷售人員是用什么樣的保險理財理念去推銷產品的,有什么樣的經驗,這都是需要探索的。
當然,為了面向用戶,所有大數據的處理要做到容易解讀。但客觀講,阿里從來不解讀,而是細分到碎片化以后直接做匹配、工具操作。阿里沒有任何一個人會在你購物買了這個包以后,給你推薦另外一個包。分析決策的過程全部是用一個基礎矩陣做的,是一個端到端的匹配操作,當分析結果出來以后,就直接執行了。所以在這個過程中,全量數據可以幫助發現業務規則。這其中就涉及很多模型。以前可能只是在北美金融界進行一些深度學習,都是比較學術型的?,F在大數據很跨界,在大數據的學術范疇里,不僅有IT的人、統計的人,還有物理學、經濟學、金融的人都在其中。學科交叉非常明顯,它是一個基礎的現代跨界科學。
在無假設條件下,通過機器學習能發現用戶的一些特征。這些工具、方式、方法,幫助金融用戶非常清楚地了解到以前未知的市場和未知的用戶。就像互聯網企業一樣,通過這些了解,能夠對這些用戶進行有針對性的操作。
二、關注效率而不是精確度
大數據標志著人類在尋求量化和認識世界的道路上前進了一大步,過去不可計量、存儲、分析和共享的很多東西都被數據化了,數據體量迅速增大,而我們對數據的關注點也開始從精確度轉變為效率,那些海量卻不那么精確的數據為我們理解世界打開了一扇新的大門。大數據能提高生產效率和銷售效率,原因是大數據能夠讓我們知道市場的需要,人的消費需要,使企業的決策更科學。
在互聯網大數據時代,企業產品迭代的速度也相應地在加快。競爭是企業的動力,而效率則是企業的生命,效率低與效率高是衡量企業成敗的關鍵。一般來講,投入與產出比體現了效率水平,追求高效率就是追求高價值。從手工、機器到自動機器、智能機器,效率正逐漸提高,尤其是大數據技術的推廣使數據的智能分析更加便捷易行,甚至能夠部分代替人腦的思維勞動。智能機器的核心是由大數據驅動的,因而大數據將成為企業未來競爭的核心資源。在快速變化的市場,快速預測、快速決策、快速創新、快速定制、快速生產、快速上市將成為企業行動的準則,也就是說速度就是價值,效率決定價值,而這一切都離不開大數據思維。
在大數據思維的指導下,企業將用效率的思維方式去思考問題、解決問題。大數據思維有點兒像混沌思維,確定與不確定交織在一起,過去那種一元思維結果,已被二元思維結果取代。過去尋求精確度,現在尋求高效率;過去尋求因果性,現在尋求相關性;過去尋找確定性,現在尋找概率性,對不精確的數據結果已能容忍。以前我們了解一件事情,大多要求是非常準確、非常精確的,不允許有任何混雜性的操作,要完全匹配。而在互聯網大數據時代,只要大數據分析能夠指出可能性,得出相應的結果,就能為企業快速決策、快速動作、搶占先機創造條件,提高了企業的運營、管理效率。
例如,當美國面對流感這一突發性疫情時,Google就利用Twitter及其他互聯網上的信息,利用大數據技術通過搜索引擎對相關關鍵詞進行主題跟蹤,成功地得到疫情分布狀況。它是通過描述主題來完成數據分析解讀任務的,我國爆發H7N9禽流感時也運用了類似的技術。天云大數據公司采用語義空間主題投影方式,跟蹤了數百個相互關聯的信息點,建立了語義網絡,在二度以上傳播空間深度挖掘,從而發現了更多不為人知的事實。其中用到了上千個變量,有H7N9、流感、豆粕、雞、發熱、口罩、醫院等,每一個變量都有權重,每一個變量都有依賴關系,這些權重和依賴關系從數億片的論壇、微博、專業資訊網站里抽取出來。以此為依據建立模型以后,就可以跟蹤整個主題變化。其中,將主題熱度與豆產品價格做比較時,顯示出明顯的負相關性,這一信息可以轉變為巨大的價值。對于期貨公司而言,這些碎片化的公共信息一經分析、挖掘就可以指導其做出正確的市場操作,具有巨大經濟價值。
那些以前我們認為碎片化、情緒化、難以量化的東西,現在都可以依靠大數據技術被合理量化,并運用大數據的思維實現它的價值。但是隨著互聯網時代的深入,社會發展的腳步越來越快,企業能夠根據數據信息做出預測,先一步采取行動就能夠抓住時代的機遇,因而對數據分析技術的高效性要求符合時代的趨勢,是大數據思維下的必然選擇。
三、關注相關性而不是因果關系
大數據時代數據海量性、多樣性的特征以及對數據信息結果時效性的要求,都使得數據結果關注相關性而不是因果關系,也就是說只需要知道是什么,而不需要知道為什么。在這個不確定的時代里,等我們去找到準確的因果關系,再進行決策的時候,信息已經失去了時效性而喪失了價值。因此,社會只把關注點放在相關關系上,放棄對因果關系的渴求,這就推翻了自古以來的慣例,那么我們做出決定和理解現實的最基本方式也將受到挑戰。而大數據思維最核心的特征之一,就是突破傳統的因果思維并轉向新穎的相關思維。
傳統的因果思維是說我一定要找到一個原因,推出一個結果來。而大數據不必深究原因,也不要求必須采用科學的方法系統性地論證兩個事件之間必然存在的某種因果關系。大數據唯一的需求在于,針對某個發生的跡象,按照一般的情況,數據統計結果中的高概率情形對應于該跡象會導致的結果。那么在這樣的信息支持下,一旦該種跡象出現,人們就可以對其后果進行預測,并據此做出決策?;诖?,人們的決策將可以免受人員、環境的干擾,單單由數據判斷出相應的結果,提高了數據的客觀性和可靠性,并且也符合效率思維。
大數據時代的來臨為我們帶來了全新的思維方式,在挖掘相關關系的過程中,能夠發現看似毫不相關的事件中隱藏的關系,并在實踐中充分展示出其優勢,使得全世界的商界人士都在驚嘆:一家超市從一個17歲女孩的購物清單中,發現了她已懷孕的事實,為她推送母嬰產品的優惠信息;或者將啤酒與尿不濕放在一起銷售,神奇地提高了二者的銷售額。大數據透露出來的信息有時確實會起顛覆性作用,比如,騰訊一項針對社交網絡的統計顯示,愛看家庭劇的男性比女性的兩倍還多;最關心金價的是中國大媽,但緊隨其后的卻是“90后”;在過去一年,支付寶中無線支付比例排名前十的竟然全部在青海、西藏和內蒙古地區。這些信息越是出乎意料,就越能為相關企業的未來業務調整帶來啟示。
當然,關注相關性,不是不要因果關系,因果關系還是基礎,是科學理論的基石。只是在高速信息化的時代,為了得到即時信息,進行實時預測,通過快速的大數據分析技術尋找到相關性信息,預測用戶行為,為企業快速決策提供支持,是一種更經濟有效的處理方式。
尋找原因是一種現代社會的理論,大數據推翻了這個論斷。當習慣用相關性的思維方式來思考問題、解決問題時,過去尋找原因的信念正逐漸被取代。當世界由探求因果關系變成挖掘相關關系時,我們怎樣才能既不損壞建立在因果推理基礎之上的社會繁榮和人類進步的基石,又取得實際的進步呢?這是值得思考的問題。
四、平等關系代替層級關系
平等性意味著各種數據的重要性是一致的,這與原來層級分明的金字塔式結構顯然不同,突出了民主和平等的概念,形成了平起平坐的扁平式結構。在小數據時代更強調系統的層次結構,金字塔式的、不平等的等級結構更為實用,由此來強調系統要素之間的層級關系,突出結構中的重點。在等級結構中,從不同要素間的層級關系與相互聯系,可以通過層層還原來不斷揭示出要素之間的關系,并強調金字塔底的基礎作用以及上下級的領導關系。而數據體量的增加使得這樣的層級關系面臨著挑戰。在大數據的海量數據中,某些數據的重要性不再那么突出,所有的數據更多地是處于平等關系,因此不會特別突出某些數據的關鍵作用,每一個數據都具有價值。
相應地,數據的平等性特征也會反映到企業與社會關系中,越來越凸顯出群眾的價值。在大數據時代,企業組織架構由金字塔式趨向扁平化,這一改變能夠提高企業的運作效率,使每個人都發揮出各自的價值。社會關系也趨向平等,借助互聯網平臺的開放性,每個人擁有平等的話語權,這將推動社會民主化的進程。
五、開放創造更多的價值
大數據的開放和包容能夠創造出更多的價值,一切數據都對外開放,沒有數據特權,從原來的單位利益、個人利益變為全民共享。從過去的實踐經驗中可以總結,封閉會導致混沌和腐敗,開放則帶來有序和生機。以往受到數據處理能力的限制,在對研究對象進行研究時,往往通過把對象與環境隔離開來,以簡化模型、總結規律。因而,在社會生活中,我們也通過將社會劃分為不同的部門或利益共同體加以分析。然而在實際中,不同利益共同體為了自身的利益各自為政,不愿意把信息對外公布和分享。當然,過去受到技術條件的限制,即使想跟公眾分享也難以實現。
但是,在大數據時代,互聯網、云技術等信息技術的普及帶來了更方便快捷的共享手段,使得數據的普遍共享與開放成為可能。隨處可見的計算機、智能手機、攝像頭和許多其他信息收集設備及存儲設備將大量數據存放于公共空間,為公眾共享信息提供了基礎。與此同時,數據的開放與共享也符合絕大多數人的利益與時代的趨勢。大數據時代是一個開放的時代,數據的分享使得隱私的空間越來越小,分享與共享成為大眾的共識,傳統的小集團利益被打破,形成了一個透明、公開的社會。消費者與企業、企業與企業之間的數據共享有利于打破信息不對稱的局面,提高市場的效率。而政府層面的數據信息整合與開放,能夠提高公共部門的效率,進一步增加人民福祉,促進不同領域的合作共贏。更重要的是,開放與共享符合大眾的期望,信息的公開與透明能夠消除因封閉、封鎖而導致的腐敗,給社會經濟帶來勃勃生機。
六、關注事物的動態發展規律
世間萬物都處在不斷的發展變化之中,數據會隨時間不斷動態發展變化。大數據技術的發展使得人們可以實時對數據進行動態監控,對事物的整體認識與發展變化有了更深刻的了解。從原來的固化在某一時間點的靜態數據到現在的隨時隨地采集的動態數據,在線地反映當下的動態數據和行為,隨著時間的推移,系統也在適應。
在小數據時代,收集的數據都是特定時間點的靜態數據,如傳統的人口普查,必須在特定時間點開始人口普查,通過一段時間到某個時間點結束,然后用幾年的時間來處理得到的靜態數據。但是靜態的人口數據具有很長的時滯性,不能實時反映出每時每刻人口的動態變化,因此人口的真實狀況不能得到反映。在大數據時代,數據采集變得更加便利,在線采集數據的形式大大降低了數據采集的成本、縮短了數據采集的時間,并能夠迅速處理和反映當下的狀態,因此能夠反映出數據實時的變動狀態。
互聯網的普及涌現出各種智能數據采集設備,能夠隨時隨地采集到各種即時數據,并通過網絡及時傳輸,存儲在云端,并借助云計算技術進行即時的處理與分析,能夠實現即時同步、不斷更新。這些隨時間流不斷更新的數據正好反映了數據隨時間的動態演化過程,并構成了一幅動態演化全景圖,反映了數據的生長性。此外,系統可以根據即時的動態信息來隨時調整系統的行為,從而體現出系統的適應性。
七、大數據思維下的其他原理
大數據思維下的其他原理包括信息找人原理、機器懂人原理、電子商務智能原理和定制產品原理。
(一)信息找人原理
互聯網和大數據的發展促使了一個從人找信息到信息找人的思維轉變。過去也曾有信息找人的例子,最初的廣播模式就是信息找人,我們聽收音機、看電視,信息就被動地傳送到我們面前。但是這樣的模式有一個缺陷,就是不知道信息的受眾是誰,后來互聯網反其道而行之,提供搜索引擎技術,讓人們能夠自主找到所需要的信息,所以說搜索引擎是一個很關鍵的技術。而如今,后搜索引擎時代已經正式來到,推薦引擎的誕生將使得使用搜索引擎的頻率大大降低,使用時長大大縮短,信息找人越來越成為一個趨勢。
大數據還改變了信息優勢。按照循證醫學,現在治病的第一件事情不是去研究病理學,而是拿過去的數據去研究,相同情況下是如何治療的。這導致專家和普通人之間的信息差異沒有了。原來我相信醫生,因為醫生知道得多,但現在我可以到谷歌上查一下,知道自己得了什么病。谷歌有一個機器翻譯的團隊,最開始的時候翻譯之后的內容根本看不懂,但是現在60%的內容都能讀得懂。
從人找信息到信息找人是交互時代的一個轉變,也是智能時代的要求。智能機器已不是冷冰冰的機器,而是具有一定智能的機器?!靶畔⒄胰恕边@四個字,預示著大數據時代可以讓信息找人,原因是企業懂用戶,機器懂用戶,你需要什么信息,企業和機器提前知道,而且會主動提供你需要的信息。
(二)機器懂人原理
在大數據的思維下,未來的趨勢是機器更懂人,而不是讓人更懂機器,就是說使用者能夠在不懂機器的情況下,仍然可以使用機器。在自然環境中都是人主動適應環境,但是在數字化環境中已經發生了改變,我們所在的生活世界越來越趨向于它來適應我們,更懂我們。而“大數據”技術就能夠幫助我們實現這樣的轉變。
例如,在亞馬遜網站上買書,就會提供一個司空見慣的推薦,買了這本書的人還買了什么書,后來發現相關推薦的書比我想買的書還要好,時間久了之后就會對它產生一種信任。
讓機器懂人,是讓機器具有學習的功能,人工智能已轉變為研究機器學習。大數據分析要求機器更智能,具有分析能力,機器即時學習變得更重要。機器學習是指計算機利用經驗改善自身性能的行為。機器學習主要研究如何使用計算機模擬和實現人類獲取知識(學習)過程、創新、重構已有的知識,從而提升自身處理問題的能力,機器學習的最終目的是從數據中獲取知識。大數據技術的一個核心目標是要從體量巨大、結構繁多的數據中挖掘出隱蔽在其背后的規律,從而使數據發揮最大化的價值。大數據機器分析中,半監督學習、集成學習、概率模型等技術尤為重要。
讓機器懂人,這是人工智能的成功,同時,也是人的大數據思維轉變。人機關系已發生很大變化,由人機分離,轉化為人機溝通、人機互補、機器懂人,現在年青人已離不開智能手機是一個很好的例證。在互聯網大數據時代,有問題—問機器—問百度,成為生活的一部分。機器利用大數據庫可搜索到相關數據,從而使機器懂人。是人讓機器更懂人,如果機器更懂人,那么機器的價值更高。
(三)電子商務智能原理
大數據改變了電子商務模式,讓電子商務更智能。傳統企業進入互聯網在掌握了“大數據”技術應用途徑之后,就會發現有一種豁然開朗的感覺。大數據時代不是說我們這個時代除了大數據什么都沒有,即使是在互聯網和IT領域數據也不是一切,而是數據已經成為我們這個時代的一個明顯的特征,從而導致我們對以前的生存狀態,以及我們個人的生活狀態的一個差異化的一種表達。
人腦思維與機器思維有很大差別,但機器思維在速度上是取勝的,而且智能軟件在很多領域已能代替人腦思維的操作工作。例如,美國一家媒體公司已用計算機智能軟件寫稿,可用率已達70%。云計算機已能處理兆字節的大數據量,人們需要的所有信息都可以得到顯現,而且每個人的互聯網行為都可記錄,這些記錄的大數據經過云計算處理能產生深層次信息,經過大數據軟件挖掘,企業需要的商務信息都能實時提供,為企業決策和營銷、定制產品等提供大數據支持,從而實現更智能化的電子商務。
(四)定制產品原理
大數據時代的產品思維由企業生產產品轉變為由客戶定制產品,成本低又兼具個性化。比如,消費者希望他購買的車有紅色、藍色,廠商有能力滿足要求,但價格又不至于像手工制作那樣昂貴。因此,在廠家可以負擔得起大規模定制的高成本的前提下,要真正做到個性化產品和服務,就必須對客戶需求有很好的了解,這背后就需要依靠大數據技術。
我們現在很多的行為都是比較粗放的,航空公司會給我們里程卡,根據飛行千米數來累計里程,但其實不同顧客所飛行的不同里程對航空公司的利潤貢獻是不一樣的。在過去,企業無法對這些行為加以區分,但是在互聯網大數據的時代,商家能夠很便利地實現針對每一個顧客進行精準的價格歧視。
同時,企業在互聯網時代也找到了定制產品、訂單生產、用戶銷售的新路子。用戶在家購買商品已成為趨勢,快遞的方便快捷讓用戶體驗到實時購物的快感,進而成為網購迷,個人消費不是減少了,反而是增加了。而要讓你的商品對用戶具備持續的吸引力,就必須深入了解用戶需要,而定制產品就成為用戶新的需求點,也就成為企業發展的新方向。