官术网_书友最值得收藏!

第二節(jié) 人文社科視野

大數(shù)據(jù)的產(chǎn)生可能是自然的或隨機的,但卻能為我們理解世界提供堅實的基礎(chǔ)。按照數(shù)據(jù)的產(chǎn)生方式,我們大體可以把大數(shù)據(jù)分為兩類:一類是來自物理世界的自然科學(xué)大數(shù)據(jù),另一類是來自人類社會活動的人文社科大數(shù)據(jù)。

想要更好地理解人文社科大數(shù)據(jù),我們不妨先來了解一下大數(shù)據(jù)的第一種形式:自然科學(xué)大數(shù)據(jù)。

自然科學(xué)大數(shù)據(jù)來自客觀物理世界,可以是天然形成的自然環(huán)境系統(tǒng)或生物的信息,也可以是通過科學(xué)實驗所獲得的海量數(shù)據(jù),但往往需要借助專業(yè)的甚至非常昂貴的設(shè)備來獲取。例如,位于貴州省黔南州喀斯特凹坑中的“中國天眼”,通過500米口徑球面射電望遠鏡(FAST),以每日5TB左右的速度產(chǎn)生觀測數(shù)據(jù),開展對宇宙的探索;跨國跨學(xué)科的“人類基因組計劃”,通過測定組成人類染色體的30億個堿基對組成的核苷酸序列,繪制人類基因組圖譜,并且辨識其載有的基因及序列,達到破譯人類遺傳信息的最終目的。這些橫跨微觀、宏觀世界的觀測和傳感器設(shè)備,正在開啟著數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的新研究范式。

但自然科學(xué)大數(shù)據(jù)并不是本書所關(guān)心和討論的對象。本書想討論的,是產(chǎn)生于人類行為或認知,能夠反映人類社會文化進程和狀態(tài)的人文社科大數(shù)據(jù)。相比于自然科學(xué)大數(shù)據(jù),人文社科大數(shù)據(jù)的產(chǎn)生則更多地體現(xiàn)了人的能動性。譬如,互聯(lián)網(wǎng)上的信息是人文社科大數(shù)據(jù)的重要來源,而這些信息是由人的情感與意識的主觀表達隨機產(chǎn)生的、基于億萬人實踐的行為痕跡,即人與人、人與物、人與工具、人與群體、人與環(huán)境等互動過程中被記錄下的時空信息指標(biāo)。從事人文社科大數(shù)據(jù)研究的學(xué)者,則要從這些看似雜亂無章的數(shù)據(jù)中尋找有價值的蛛絲馬跡。

在談到人文社科大數(shù)據(jù)的特點之前,我們先回顧一下傳統(tǒng)人文社科研究使用的數(shù)據(jù)形式。傳統(tǒng)的社科數(shù)據(jù)收集方式或遵循嚴格的抽樣方法,并按照事先設(shè)定好的問題來獲取;或是在某一個有限的空間和時間限度內(nèi)對某小部分人群或社會活動進行觀察和調(diào)研。這種基于問卷、個案、田野或?qū)嶒灥恼{(diào)查方法,能在某種程度上反映社會或文化的某個側(cè)面,助力人文社科研究,但可能受到樣本代表性、數(shù)據(jù)收集成本等因素的影響。

一個關(guān)于樣本代表性和成本的經(jīng)典案例就是1936年美國大選民意調(diào)查。當(dāng)時,富蘭克林·羅斯福是民主黨候選人,阿爾弗雷德·蘭登則是共和黨候選人。《文學(xué)文摘》(The Literary Digest)雜志花費了巨大的成本進行問卷調(diào)查:從電話簿和車牌登記號中選出了1,000萬人寄送調(diào)查問卷,最終收回了220萬份。220萬份調(diào)查問卷,即使在今天也是非常巨大的規(guī)模。這220萬份調(diào)查問卷結(jié)果顯示,蘭登的支持率為57%,優(yōu)勢明顯。但在兩周之后的選舉中,羅斯福的支持率達到了61%,大獲全勝。與此同時,剛剛創(chuàng)業(yè)的喬治·蓋洛普博士,通過在街頭隨機發(fā)放的3,000多份調(diào)查問卷,卻預(yù)言羅斯福將擊敗蘭登,并由此一戰(zhàn)成名,從此“蓋洛普調(diào)查”家喻戶曉。

在這個案例中,何以220萬人的調(diào)查結(jié)果不如3,000人的準(zhǔn)確?原因很簡單:《文學(xué)文摘》的調(diào)查樣本,都出自家庭電話用戶和汽車擁有者。而在20世紀(jì)30年代的“大蕭條”中,這個群體中顯然富人居多,他們大多支持共和黨也就可以理解了。換句話說,非隨機的、有偏差的、不具代表性的樣本,即使規(guī)模再大,也沒有參考價值。蓋洛普的3,000人樣本雖然規(guī)模很小,但通過街頭隨機訪問,反而具有更好的代表性。

人文社科大數(shù)據(jù)較之傳統(tǒng)調(diào)查問卷數(shù)據(jù)的優(yōu)勢在于更大、更全、更具代表性,這為更全面、更可信、更宏觀地解讀社會提供了全新的可能。

總的來說,人文社科大數(shù)據(jù)主要有以下幾個特點。

第一,大規(guī)模與廣覆蓋。

人類行為每天大約能產(chǎn)生多少數(shù)據(jù)?泰晤士集團和Raconteur合作的“數(shù)據(jù)中的一日”(A Day in Data),匯總和預(yù)測了各大網(wǎng)絡(luò)平臺中留下的人類部分行為痕跡數(shù)據(jù)(圖1.2.1)。僅在2018年,臉書上每天就會產(chǎn)生100億條消息、3.5億張圖片和時長達1億小時的視頻;互聯(lián)網(wǎng)搜索引擎每天要承載超過50億次的搜索。到2021年,人類每天發(fā)出3,200億封電子郵件。到2025年,人類每天產(chǎn)生的數(shù)據(jù)將高達463EB,這相當(dāng)于每天需要4.63億塊1TB容量的家用電腦硬盤來儲存。這么多的數(shù)據(jù),一年下來會達到175ZB。按照我們家庭平均網(wǎng)速為10MB/秒計算,如果你要下載完這175ZB的數(shù)據(jù),需要7.2億年。

圖1.2.1 數(shù)據(jù)中的一日

圖片來源:https://www.raconteur.net/infographics/a-day-in-data/.

我們進一步舉例說明人文社科大數(shù)據(jù)的海量。圖1.2.2中展示的內(nèi)容,看起來非常類似一個管道密布的工廠車間。其實,它是位于美國佐治亞州道格拉斯縣的谷歌數(shù)據(jù)中心的服務(wù)器冷卻系統(tǒng)。彩色管道旁的那輛G-Bike自行車,是谷歌員工在數(shù)據(jù)中心周邊活動時的首選交通工具。從冷卻系統(tǒng)的空間規(guī)模尺度上,你就能感知到,谷歌數(shù)據(jù)服務(wù)器的數(shù)量、容量和所散發(fā)的熱量有多巨大。

圖1.2.2 谷歌數(shù)據(jù)中心的服務(wù)器冷卻系統(tǒng)

圖片來源:https://www.google.com/about/datacenters/gallery/.

這些海量和多來源的數(shù)據(jù)為我們窺探和理解社會提供了更加全面的研究素材。事實上,盡管存在著大量記錄人類行為和社會運行的數(shù)據(jù)資料,但人文社會科學(xué)研究者如何將其運用起來,從這些大數(shù)據(jù)中挖掘出有效信息,并從中歸納社會規(guī)律仍然是一個難題。事實上,人文社科大數(shù)據(jù)研究對數(shù)據(jù)的大小限制并不那么嚴格,由于數(shù)據(jù)獲取途徑和計算效率等原因,研究者也不可能將如此龐大的數(shù)據(jù)資料全部應(yīng)用起來。他們往往是從某個研究角度出發(fā),獲取部分能夠反映人文社科議題的數(shù)據(jù):這些數(shù)據(jù)可以是推特用戶在某段時間里關(guān)于美國大選的討論,抑或是人們在搜索引擎中針對抑郁癥的搜索次數(shù),又或者是涉及戰(zhàn)爭的電影百年來的上映情況和主要情節(jié)。相比傳統(tǒng)幾十份至多上萬份的全國社會問卷調(diào)查來說,這些數(shù)據(jù)收集的廣度和維度會大得多。

第二,實時性與歷時性。

從縱向的視角來考量社會進程和現(xiàn)狀,是我們觀察和分析人類社會運行的重要方式。在這一點上,人文社科大數(shù)據(jù)的優(yōu)勢,較之通過調(diào)查問卷獲得的傳統(tǒng)數(shù)據(jù),特別是所謂橫截面的切片數(shù)據(jù),要大得多。所謂橫截面數(shù)據(jù),反映的是某個或某類社會現(xiàn)象在具體一個時間點上或一小段時間內(nèi)的具體和平均狀態(tài),但難以展示事物發(fā)展的內(nèi)在邏輯和演變機制。比如,調(diào)查問卷提問2020年你的幸福感、安全感和獲得感如何,獲得的其實只是你當(dāng)下的感覺或者對過去一年的總體評估。如果要長期跟蹤調(diào)查這樣的問題,就必須進行歷時調(diào)查。但是我們可以想象,對一個人進行10年跟蹤調(diào)查需要極大成本,更不用說對成千上萬的大規(guī)模樣本進行長時空跨度的跟蹤了。

幸運的是,人文社科大數(shù)據(jù)無論是在橫截面還是在歷時方面,都有更為強大的功能。這是因為,這類數(shù)據(jù)在產(chǎn)生和被記錄的過程中往往都會標(biāo)記上時間標(biāo)簽。因此,理論上,如果要截面觀察,人文社科大數(shù)據(jù)可以實現(xiàn)以秒、分、時、日等多種瞬時單位來進行事件定義,或者隨時進行數(shù)據(jù)的截取。同時,這類數(shù)據(jù)的產(chǎn)生往往是持續(xù)的,因此可以從10年、20年、100年甚至數(shù)百年的尺度上對這類數(shù)據(jù)進行不間斷的收集和觀察。

例如,2020年初新冠肺炎疫情突至?xí)r,社會學(xué)研究者通過各類社交平臺,可以在足不出戶的情況下分析網(wǎng)民每天的互聯(lián)網(wǎng)行為和言論數(shù)據(jù),實時把握疫情下的社會心態(tài),而不需要花費大量人力、物力在事后收集相關(guān)的回憶數(shù)據(jù)。再如,如果你想了解10年以來人們對房價的關(guān)注度變化與房價的漲幅之間是否存在某種連帶關(guān)系,通常需要研究者每年進行相關(guān)的問卷設(shè)計和調(diào)研,逐漸累積分析數(shù)據(jù)。但可惜的是,你已經(jīng)不可能回到過去進行研究。但借助人文社科大數(shù)據(jù),你可以通過百度搜索指數(shù)中“房價”的熱度來衡量人們對房價的關(guān)注度——這種方式可追溯到2006年甚至更早的數(shù)據(jù),極大拓寬了你觀察和記錄社會的視野,同時大大降低了數(shù)據(jù)的收集成本。

第三,群體層次與宏觀視野。

傳統(tǒng)的社會研究總是習(xí)慣從個體層次來收集數(shù)據(jù)——問卷的信息來自針對個體的問卷調(diào)查,但這會使得利用數(shù)據(jù)觀察社會的學(xué)術(shù)或者思考行為過度聚焦于微觀層面。實際上,很多社會科學(xué)定量研究,都使用了幾千幾萬個個體樣本,學(xué)者稱此為“微觀旨趣”。以社會學(xué)為例,我們把樣本是人或法人等的研究,作為代表微觀旨趣的典型性傳統(tǒng)社會學(xué)定量分析,并簡稱其為“個體研究”;類似的,我們把以行政區(qū)劃單位(如縣、郡、市、州或國家)等為樣本的區(qū)域?qū)用嫜芯亢喎Q為“群體研究”。接下來,我們以中美兩國社會學(xué)專業(yè)的頂級期刊30年來發(fā)表的學(xué)術(shù)論文為例進行一個展示分析。

《社會學(xué)研究》1986—2020年發(fā)表的定量論文為586篇,而其中的分析樣本層次為縣、市、省等群體的僅17篇(歷年變化趨勢見圖1.2.3上圖)。類似的,《美國社會學(xué)雜志》(American Journal of Sociology)和《美國社會學(xué)評論》(American Sociological Review)1992—2019年發(fā)表的定量論文為1,282篇,其中群體層次研究僅157篇(歷年變化趨勢見圖1.2.3下圖)。總體上,我們認為當(dāng)代社會學(xué)定量研究具有兩個關(guān)系密切的特征:第一,分析對象維度呈現(xiàn)高度的個體錨定,這種錨定進一步導(dǎo)致研究者在理論維度上過度聚焦微觀社會機制而不是宏觀社會理論。第二,恰恰因為研究對象是個體,其研究時空跨度往往非常有限,大多數(shù)研究都聚焦于一年或數(shù)年內(nèi)某個國家或地區(qū)。能夠以較大時間跨度(如50年甚至100年以上)對宏觀理論進行實證檢驗或?qū)暧^系統(tǒng)進行定量剖析的研究少之又少。實際上,不止于定量研究,在整個社會學(xué)學(xué)科中,微觀研究特別是微觀理論從20世紀(jì)70年代起就大行其道。通過對百萬數(shù)字化書籍大數(shù)據(jù)的研究發(fā)現(xiàn),當(dāng)前的全球社會學(xué)似乎進入了某種“后大理論”時代。

圖1.2.3 《社會學(xué)研究》(上)、《美國社會學(xué)雜志》和《美國社會學(xué)評論》(下)發(fā)表論文的類型和樣本層次

但為何我們觀察社會、分析社會出現(xiàn)了這樣的問題呢?除了方法論、本體論的差異之外,可能的原因有二。

其一,對區(qū)群謬誤的矯枉過正。社會科學(xué)研究關(guān)注的變量間關(guān)系,在宏觀群體層次和個體微觀層次并不一定相同。例如,我們觀察從墨西哥到美國的移民,就會發(fā)現(xiàn):在州的層面,文盲率越高的州,移民比例越低,也即文盲率和移民率負相關(guān);而在墨西哥移民的個體層面,是否移民和是否文盲正相關(guān)。因此,1958年社會學(xué)家塞爾文正式提出“區(qū)群謬誤”(ecological fallacy)的概念。從20世紀(jì)50年代開始,個體問卷調(diào)查方法進一步成熟,社會學(xué)家紛紛轉(zhuǎn)向基于個體或家庭數(shù)據(jù)的微觀研究。隨著時間的推移,20世紀(jì)末以來的整個定量社會學(xué)研究的空間粒度,被小心翼翼地框定在個體微觀層次。

其二,宏觀指標(biāo)的稀缺。如果我們把觀察社會發(fā)展陷入微觀旨趣的現(xiàn)象僅歸因于區(qū)群謬誤,就無法解釋在經(jīng)濟學(xué)領(lǐng)域特別是宏觀計量經(jīng)濟學(xué)領(lǐng)域,基于縣、市、省、國家等層面的宏觀研究何以大行其道。問題在于:經(jīng)濟學(xué)家擁有從鄉(xiāng)鎮(zhèn)到國家等各級行政區(qū)劃的宏觀統(tǒng)計指標(biāo)(諸如GDP、居民可支配收入、通貨膨脹率、失業(yè)率、城鎮(zhèn)化率等),而對于社會學(xué)家最關(guān)心的社會分層、社會流動、社會網(wǎng)絡(luò)乃至幸福感、信任度等客觀和主觀的關(guān)鍵社會指標(biāo),絕大多數(shù)國家的統(tǒng)計部門均缺乏系統(tǒng)和長期的收集。這在相當(dāng)程度上導(dǎo)致我們巧婦難為無米之炊,只能依托現(xiàn)有個體數(shù)據(jù)進行微觀旨趣的研究。

相形之下,相當(dāng)多的人文社科大數(shù)據(jù),其產(chǎn)生過程有著非常清晰的宏觀地域標(biāo)簽。因此,利用這一數(shù)據(jù),你可以便捷地以縣、市、省、國家為單位樣本,進行宏觀層面的觀察和研究。這是一種社會科學(xué)研究的宏觀轉(zhuǎn)向:隨著大數(shù)據(jù)越來越具有可及性,我們可以構(gòu)建宏觀社會指標(biāo)并運用成熟的計量模型來識別宏觀變量之間的相關(guān)關(guān)系和因果關(guān)系,這為重啟宏觀定量社會研究提供了很好的實踐模式。

第四,獨立性與隱私性。

人文社科大數(shù)據(jù)的獨立性,也可以稱作不反應(yīng)性。眾所周知,人文社科的研究對象是人及人類行為,相比于客觀的物理世界,人類行為會根據(jù)實際情況進行實時調(diào)整。比如,當(dāng)一個被研究者得知自己在被實驗觀察或采集信息時,往往會刻意或無意地控制自己的行為或隱藏真實情況,呈現(xiàn)給研究者一個被雕琢過的形象。這一點非常類似量子力學(xué)中對測不準(zhǔn)原理的一種通俗化描述:當(dāng)你用一個光子去照亮一個粒子以發(fā)現(xiàn)它的位置和速度時,你已經(jīng)通過擾動改變了粒子的狀態(tài)。

但大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的收集與研究邏輯是相反的。傳統(tǒng)數(shù)據(jù)往往根據(jù)研究目的和研究設(shè)計,有針對性和目的性地收集相關(guān)數(shù)據(jù),相當(dāng)于在人們的日常生活中施加了某種外力;而大數(shù)據(jù)則是對人們?nèi)粘P袨楹圹E的自然記錄,研究者從已有可獲得的數(shù)據(jù)中抽絲剝繭,整理并挖掘出研究分析所需要的素材,研究者和被研究者有意識的自我操控也自然被剝離在這種真實記錄之外。或者說,恰恰因為大數(shù)據(jù)的產(chǎn)生往往不是單純?yōu)榱藬?shù)據(jù)目的,所以數(shù)據(jù)來源者(社會大眾)并不會在數(shù)據(jù)產(chǎn)生過程中加入表演的成分。

同時,也恰恰因為大數(shù)據(jù)是如此產(chǎn)生的,所以就具有了一種隱私性。作為社會分析者和觀察者,我們只需要從宏觀層面(縣、市等)了解社會規(guī)律,而不用追溯到具體的個人,除非有法律的原因和動力導(dǎo)致我們要在大數(shù)據(jù)中追蹤個體的具體行為。當(dāng)個體的行為在縣、市等宏觀層面匯總時,即便是敏感的、人們不愿意透露的數(shù)據(jù),此時也能在不侵犯隱私的情況下輕松獲得。當(dāng)然,代價就是不去獲取個體的具體信息。

凡事都有一體兩面,我們不是人文社科大數(shù)據(jù)的狂熱信徒,自然也要站在客觀的立場上直面大數(shù)據(jù)應(yīng)用于社會觀察的先天不足。

首先,即便是大數(shù)據(jù)也會有不完整性。例如,如果研究者從推特上獲取數(shù)據(jù),那收集到的不外乎那些喜歡用該軟件并且樂于在推特上發(fā)表意見的用戶的行為數(shù)據(jù)。可這些數(shù)據(jù)又如何反映那些不使用該軟件或只習(xí)慣于在推特上獲取信息而不發(fā)表言論的用戶特點呢?再比如,一些大型電子數(shù)據(jù)庫試圖盡可能地收錄人類社會的文化成果,如著名的互聯(lián)網(wǎng)電影資料庫IMDb,截至2020年6月已經(jīng)收錄6,534,894個作品條目,涉及電影552,366部,但仍存在對早期電影或部分小國電影掛一漏萬的問題。當(dāng)然,這些問題隨著互聯(lián)網(wǎng)的普及和資料庫的不斷完善正在不斷得到改善。

其次,人文社科大數(shù)據(jù)難以用于分析個體微觀行為的機制。倘若你想通過大數(shù)據(jù)去研究什么因素可以影響一個人的淘寶購物行為,就可能會因為無法獲取微觀個體的信息而大傷腦筋。顯然,我們有途徑獲取海量ID的購物次數(shù)和關(guān)注內(nèi)容,卻因為隱私問題無法獲知其性別、職業(yè)和家庭背景信息;即使能獲知,也難以保證數(shù)據(jù)是真實可靠的還是個人擬定的虛擬形象。因此,人文社科大數(shù)據(jù)往往更適用于描述社會的總體面貌,而非解釋微觀的影響機制。例如,如果你把研究聚焦于宏觀層面,把研究問題變更為“什么因素能夠影響全國各個地區(qū)網(wǎng)民的購物力度”,則可以把地域的網(wǎng)絡(luò)數(shù)據(jù)和地域的經(jīng)濟發(fā)展水平、城鎮(zhèn)化水平、政治環(huán)境等宏觀指標(biāo)聯(lián)系在一起進行有效的研究分析。

最后,數(shù)據(jù)的噪聲和敏感問題也應(yīng)得到關(guān)注。由于人文社科大數(shù)據(jù)往往不是專門為研究而收集的結(jié)構(gòu)化數(shù)據(jù),且表現(xiàn)為文本、圖片、視頻等形態(tài)多樣、風(fēng)格多變、主題分散的信息集合,因此如何從龐大冗余的信息中找到合適的“支點”來撬動數(shù)據(jù),消除不必要的噪音和干擾,是人文社科大數(shù)據(jù)研究者需要解決的問題,否則只能導(dǎo)致數(shù)據(jù)災(zāi)難和信息災(zāi)難。例如,“網(wǎng)絡(luò)水軍”在微博上的痕跡,可能被當(dāng)作網(wǎng)絡(luò)民意而記錄和分析,導(dǎo)致信息出現(xiàn)偏差,甚至有的購物網(wǎng)站下的顧客評論或許就是廠商雇傭“水軍”寫的。如何去除這些噪音,在什么觀察主題或分析內(nèi)容下需要去除,抑或判斷它是否造成影響,都需要認真地梳理和研究。因此,要透過人文社科大數(shù)據(jù)分析、觀察社會,聚焦的研究主題、合適的數(shù)據(jù)來源、精巧的處理方法都是必不可少的。當(dāng)然,數(shù)據(jù)的獲取、處理和分析仍要以尊重個人隱私為基礎(chǔ),避免產(chǎn)生相關(guān)的倫理道德問題。

人類社會的文化積累和人們的日常生活行為,在當(dāng)今時代正在越來越多地轉(zhuǎn)化為可記錄的數(shù)據(jù)資料,為我們了解社會、透視社會和進行人文社會科學(xué)研究提供了前所未有的豐富材料。我們已經(jīng)對人文社科大數(shù)據(jù)的產(chǎn)生和相關(guān)特點有了直觀的感受:在我們驚嘆于數(shù)據(jù)的數(shù)量、豐富性和及時性的同時,也要顧及數(shù)據(jù)的完整性和真實性,以及數(shù)據(jù)冗余帶來的分析災(zāi)難;在我們享受大數(shù)據(jù)縱貫分析所帶來的宏觀震撼視角時,也應(yīng)該考量微觀解釋的困境;在我們強調(diào)大數(shù)據(jù)的獨立性和客觀性時,也不得不面對大數(shù)據(jù)這一角冰山后面“沉默的螺旋”。

作為一個社會觀察者或者人文社科研究者,在對大數(shù)據(jù)有了基本的認知后,自然會開始思考:在現(xiàn)實的研究工作中,我們可以具體從哪些平臺收集到哪些數(shù)據(jù)?這些收集到的數(shù)據(jù)如何應(yīng)用到具體的社會觀察和研究中,度量我們的社會和文化呢?本章第三節(jié)將向你展示具有實操性的數(shù)據(jù)采集平臺,以及具有借鑒意義的既往研究案例。

主站蜘蛛池模板: 苏尼特右旗| 正宁县| 寿光市| 全州县| 邹平县| 绵竹市| 湖南省| 四平市| 吐鲁番市| 乌鲁木齐市| 临泽县| 宾阳县| 砀山县| 天祝| 华安县| 农安县| 元氏县| 垫江县| 东至县| 和平县| 鄂伦春自治旗| 涿鹿县| 玉山县| 比如县| 桓台县| 当雄县| 交城县| 古田县| 平和县| 葵青区| 宁武县| 鄱阳县| 邵阳县| 汶川县| 汉沽区| 惠安县| 民权县| 崇阳县| 洛宁县| 泰兴市| 河东区|