- 社會遠觀:人文社科的大數據視野
- 陳云松
- 3861字
- 2023-11-27 18:11:27
第一節 大數據概述
想象一下,你現在在一家超市的飲料貨柜面前,打算購買一瓶礦泉水,你可能會綜合價格、產品質量選擇農夫山泉、娃哈哈、怡寶等品牌。但你可能并未注意到,實際上,這些品牌礦泉水的擺放和包裝策略,可能會提高你駐足抉擇的概率。比如,若某一品牌的擺放位置可以讓你輕松獲取,你可能會在時間有限的情況下率先選擇它;若某一品牌礦泉水的包裝十分搶眼,你可能也會更青睞于它。
這時候,你可能會好奇:商家如何“準確”地把握了你的這些隱藏喜好?以“有點甜”的農夫山泉為例,早在2008年,農夫山泉就開始收集“消費行為圖片”。在上海城鄉接合部九亭鎮的新華都超市,農夫山泉礦泉水靜靜地堆放在一個角落里。業務員每天都會來這里拍攝10張照片,記錄水怎么擺放、位置有什么變化、高度如何……這樣的點,每個業務員一天要跑15個,下班之前將150張照片共10M的數據量傳回杭州總部。
在全國各地,農夫山泉有10,000個這樣的業務員在拍照、上傳。這樣,每天將有100G的數據進入農夫山泉在杭州的機房。如果這些數據能夠被進一步分析,或許就可以形成集擺放位置喜好、消費年齡、包裝喜好甚至氣溫變化影響于一體的個體購買礦泉水的消費畫卷。
農夫山泉不是大數據的首先使用者。早在20世紀90年代,沃爾瑪就通過分析消費數據發現了啤酒與尿布的關聯性,即負責買尿布的美國年輕父親會順便買啤酒。沃爾瑪據此將尿布與啤酒擺放在一起,這一細節讓其獲得了滿意的商品銷售收入。2004年,美國著名計算機專家埃齊奧尼利用乘客飛行記錄的價格信息,創立了一個預測機票價格走勢和增降幅度的系統。2009年,谷歌公司的工程師通過對人們檢索的流感詞條的分析,預測了流感的出現范圍。
從農夫山泉到沃爾瑪,從埃齊奧尼到谷歌公司的工程師,聰明的企業家與技術人員們已經敏銳地捕捉并利用起了這種海量、多樣性數據的巨大潛力:只要你留心,數據便可以經由分析這一鏈條,量化起我們生產、生活和工作的方方面面。
正如著名未來學家約翰·奈斯比特在《大趨勢》中所預言的,近半個世紀以來,在傳感網、物聯網、社交網絡等技術的迅猛發展下,人類在日常學習、生活、工作中產生的數據量正在以難以想象的速度增長。鋪天蓋地而來的多樣性數據使我們在分析某一問題時,不再像最初的社會調查一樣,只能遵循科學的抽樣步驟抽取有限的樣本量,根據自己的需求設計每一條想要獲得的精確數據信息,在計量模型的輔助下探求難以捉摸的因果關系。
今天的我們可以盡情地使用跨越時空的全體數據樣本,放下對結構化傳統數據的執念——畢竟它只占人類社會數據總量的5%,轉而以開放的心態擁抱剩下的95%——或許并不十分精確但更全面的、與我們關心的問題相關的圖片、視頻、文本等非結構化或半結構化數據。對這些數據進行描述和繪制圖表,可以發現、展示一定的規律,開闊、啟發我們的思維。
20世紀80年代,美國著名的未來學家、社會思想家阿爾文·托夫勒在其所著的《第三次浪潮》中首次提出“大數據”這一概念,并熱情地將其稱為“第三次浪潮的華彩樂章”1。1997年,美國國家航空航天局研究員邁克爾·考克斯和戴維·埃爾斯沃思在電氣與電子工程師學會舉辦的第八屆可視化會議上,首次界定了“大數據”的內涵:“通常情況下數據集相當大,耗盡了主存儲器、本地磁盤,甚至是遠程磁盤的存儲容量,我們將這個東西稱為大數據。”在這個階段,大數據在氣象、天文等科學領域被賦予了“大量的數據或數據集”的含義。
進入21世紀,這一“大量數據”的處理需求催生了新的處理技術,例如谷歌的MapReduce和開源Hadoop平臺。這些技術不僅使我們可以處理的數據量大大增加,更重要的是可以幫助我們處理圖片、文字、視頻等“并不整齊排列”的非結構化數據。2004年起,臉書、推特、新浪微博等社交媒體相繼問世,人們借助互聯網實時互動、交流協同,每時每刻、隨時隨地創造著大量的非結構化數據,引發了真正意義上的數據爆炸增長。
2007年,計算機圖靈獎得主詹姆士·格雷提出了科學研究的“第四范式”,即以數據為中心,以網絡化、協同化和數據驅動為特征的數據密集型科學研究,標志著大數據正式登上科學研究的舞臺。第二年,美國學術雜志《自然》(Nature)就設立了大數據研究專刊,大數據開始在學術界引起廣泛關注。
2012年1月,瑞士達沃斯世界經濟論壇提出,大數據如同貨幣或黃金一樣,是一種新的經濟資產類別。同年,時任美國總統奧巴馬運用大數據進行募款、策劃選舉活動、宣傳及選票預測成功競選并連任的案例,引發對政治大數據的廣泛討論。許多國家紛紛將大數據的建設和發展上升為國家戰略,如美國政府將大數據視為“未來的新石油”,率先提出 《大數據研究和發展倡議》,聯合國發布了關于如何利用大數據更好地服務和保護人民的政務白皮書。在這個階段,大數據已經有了信息資產的含義。
在國內,2012年,阿里巴巴率先提出企業數據化運營,在管理層設立“首席數據官”職位,負責全面推進“數據分享平臺”戰略,并推出“聚石塔”這一數據分享平臺,為天貓、淘寶平臺上的電商及服務商等提供數據云服務。2015年,《國務院關于印發促進大數據發展行動綱要的通知》(國發〔2015〕50號)發布,標志著大數據正式上升為國家戰略。
維克托·邁爾-舍恩伯格及肯尼斯·庫克耶在《大數據時代》中指出,大數據是人們在大規模數據的基礎上發現和理解信息內容及信息與信息之間的關系,是人們獲得新的認知、創造新的價值的源泉,也是改變市場、組織機構、政府與公民關系的方法,通常這一過程無法在小規模數據基礎上完成。在社會科學學者的眼中,大數據不僅包含技術層面,而且是一個在合理時間內采集大規模資料并進行處理,幫助使用者更有效決策的社會過程。
目前關于大數據的認識形成了“5V”理論。第一,數據量大(volume),即采集、存儲和計算的數據量都非常大。人類社會的數據量呈現爆發性增長,大數據中的數據不再以幾個GB或幾個TB為單位來衡量,而是以PB、EB或ZB為起始計量單位。第二,多樣性(variety),主要體現為數據種類和來源的多樣化。數據種類可分為結構化、半結構化和非結構化,其中又以非結構化數據為主。第三,高速性(velocity),表現為數據增長速度快,處理速度也快,時效性要求高。第四,價值性(value),表現為數據價值密度相對較低,但背后潛藏的價值巨大。第五,真實性(veracity),表現為大數據的準確性和可信賴度。
在我們介紹大數據的內涵和特征時,你或許已經有些疑惑:人類社會一直在面對和解決大量數據的問題,不斷增長的數據并不是這個時代特有的產物,那么“大數據”的“大”究竟是指什么呢?其與“海量數據”“大規模數據”有什么區別?
要回答這一問題,我們可以從分析大數據的英文名稱big data入手。英語世界里常用來表示“大”這一含義的有兩個單詞:large和big。在大數據的概念被提出之前,許多關于大量數據方面的研究都是使用large或vast,比如著名的數據庫國際會議VLDB(Very Large Data Bases)就采用large形容“大”。large與vast的區別主要在程度上,vast可以看成very large的意思。big和large、vast的區別在于:big強調的是一種相對的大,是抽象意義上的大;而large和vast一般用于形容體量的大小。
或許這意味著,大數據的“大”不僅僅說明數據量更大、來源更多,而且有著內蘊更多和動態變化越來越大的趨勢。
大數據之“大”,首先表現為數據量大,包括采集、存儲和計算的量都非常大;其次表現為來源廣泛和類型多樣,包括互聯網數據、科研數據、傳感數據、商業數據等多個方面。
互聯網數據是大數據來源的主力軍。亞馬遜、淘寶等互聯網購物平臺也在為數據生產創造價值,如亞馬遜每天可以產生6,300萬條訂單數據,淘寶網站單日數據產生量超過5萬GB,谷歌、百度、微博、臉書產生的數據更是巨大。
科研數據主要來自生物工程、天文、物理等領域的科學研究機構,這些機構往往具有計算高速、性能優越的機器,例如歐洲的國際核子研究中心裝備的大型強子對撞機每秒可以發送4,000萬次的數據,規模達到PB級別,即便過濾掉99.999%的無用數據,每年仍可產生25PB的數據。
傳感數據是指由感知設備或傳感設備感受、測量及傳輸的數據,包括各種傳感器、紅外感應器、射頻識別系統、條碼與二維碼、全球定位系統等產生的數據。
商業數據主要是指企業生產、經營活動中產生的服務于決策的數據,比如公司的生產、庫存、訂單及供應鏈數據,銷售系統數據,客戶關系管理(CRM)數據,企業資源規劃(ERP)數據等。
由此,人們在使用社交平臺時產生的文本、圖片、視頻等數據,無數自動化傳感器、自動記錄設施、生產檢測、環境檢測、交通檢測等產生的數據,來自各種自動化流程記錄的數據,刷卡機、收款機、電子不停車收費系統、互聯網點擊、電話撥號等設施以及各種辦事流程登記等產生的數據,通過互聯網聚集到電信運營商、互聯網運營商、政府、銀行、商場、企業、交通樞紐等處,匯成大數據的海洋。物與物、人與物、人與人連接在一起,形成物物相連的互聯網,實時產生著形式多樣的大規模數據。
最后,大數據的規模是一個相對概念,衡量大數據體量的標準會隨著技術的進步和分析效率的提高而不斷變化。字節(Byte,簡寫為B)是計量存儲容量和傳輸容量的單位,1個字節等于8位(bit,簡寫為b)二進制,KB是千字節,MB是兆字節,GB是千兆字節,TB是千千兆字節。按順序給出所有單位,B、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,它們之間的關系是:
1 KB = 1,024 B (KB-kilobajt) 千
1 MB = 1,024 KB (MB-megabajt) 兆
1 GB = 1,024 MB (GB-gigabajt) 吉
1 TB = 1,024 GB (TB-terabajt) 太
1 PB = 1,024 TB (PB-petabajt) 拍
1 EB = 1,024 PB (EB-eksabajt) 艾
1 ZB = 1,024 EB (ZB-zettabajt) 澤
1 YB = 1,024 ZB (YB-jottabajt) 堯
我們現在家用電腦的硬盤容量一般是1TB,而有專家認為,工業級的大數據要達到EB級。那么1EB數據到底有多大?它的數據規模是1,024×1,024TB,也即約100萬個電腦硬盤的容量。當然,對于實際的數據分析特別是人文社科研究而言,數據規模一般沒有這么大。