官术网_书友最值得收藏!

理論前沿

透過(guò)推特看騷亂:大數(shù)據(jù)分析的方法論創(chuàng)新原文為Procter, Rob, Farida Vis, and Alex Voss. 2013. “Reading the Riots on Twitter:Methodological Innovation for the Analysis of Big Data.”International Journal of Social Research Methodology 16(3):197-214。

〔英〕羅伯·普羅克特 法麗達(dá)·維斯 亞歷克斯·沃特羅伯·普羅克特,英國(guó)曼徹斯特市曼徹斯特大學(xué)曼徹斯特網(wǎng)絡(luò)研究中心;法麗達(dá)·維斯,英國(guó)謝菲爾德市謝菲爾德大學(xué)信息學(xué)院;亞歷克斯·沃特,英國(guó)圣安德魯斯市圣安德魯斯大學(xué)計(jì)算機(jī)學(xué)院。 沈本秋/譯 彭銘剛/校


摘要:社交媒體的廣泛應(yīng)用,對(duì)社會(huì)學(xué)家來(lái)說(shuō)可謂機(jī)遇與挑戰(zhàn)并存。反映人們?nèi)粘A?xí)慣、意見(jiàn)觀點(diǎn)和行為特征的數(shù)據(jù)正以規(guī)模空前的形式向我們走來(lái)。這也意味著,我們?cè)谘芯恐胁豢赡茉僖蕾?lài)傳統(tǒng)的分析方法和分析工具。本文是針對(duì)2011年8月英國(guó)發(fā)生騷亂期間出現(xiàn)的大量推文語(yǔ)料應(yīng)用計(jì)算機(jī)輔助方法進(jìn)行分析的一次實(shí)驗(yàn)。

關(guān)鍵詞:大數(shù)據(jù) 社交媒介 計(jì)算社會(huì)科學(xué) 推特 危機(jī)傳播

引言

網(wǎng)絡(luò)在過(guò)去十年間的廣泛應(yīng)用,以及近年來(lái)的博客(如推特)等社交媒體和社交網(wǎng)站(如臉書(shū))的爆炸式發(fā)展,對(duì)于社會(huì)研究人員而言,既是機(jī)遇,也是挑戰(zhàn)。過(guò)去十年間,人們?yōu)殚_(kāi)發(fā)更強(qiáng)大的研究方法、數(shù)字基礎(chǔ)設(shè)施和研究工具進(jìn)行了大量的投資,旨在解決新出現(xiàn)的、更為復(fù)雜的跨學(xué)科研究難題(Atkinson et al., 2009; Halfpenny and Procter, 2010; Halfpenny et al., 2009)。本文針對(duì)2011年8月英國(guó)騷亂期間出現(xiàn)的大量推文語(yǔ)料,應(yīng)用大數(shù)據(jù)方法和工具進(jìn)行研究分析的一次實(shí)驗(yàn)。

我們首先將綜述近年來(lái)社交媒體在危情中發(fā)揮的作用。然后介紹我們自己開(kāi)發(fā)出來(lái)的用于分析推文語(yǔ)料的方法和工具,同時(shí)通過(guò)我們的一些發(fā)現(xiàn)來(lái)闡述這些方法和工具的應(yīng)用潛力。最后,我們將落腳于討論本研究的局限性,并對(duì)我們處理這些局限性問(wèn)題的措施進(jìn)行一個(gè)概述,包括我們正在開(kāi)發(fā)的,甚至可用來(lái)分析更大社交媒體語(yǔ)料庫(kù)的基礎(chǔ)設(shè)施。

危機(jī)傳播與社交媒體

現(xiàn)在,不同的傳播平臺(tái)在危機(jī)情境中所扮演的不同角色已經(jīng)是一個(gè)重要的研究領(lǐng)域,該研究領(lǐng)域的成長(zhǎng)也反映了十年來(lái)傳播技術(shù)形式的發(fā)展?fàn)顩r(Allan, 2006; Barsky, Trainor and Torres, 2006; Bruns, 2006; Bruns et al., 2012; Mendoza, Poblete and Castillo, 2010; Vis, 2009)。特爾沃爾(Thelwall)和斯圖亞特(Stuart)(2007)通過(guò)對(duì)比2005年的三次危機(jī)事件,包括颶風(fēng)卡特里娜等,考察了不同傳播技術(shù)的反應(yīng)——新興的傳播技術(shù)被認(rèn)為在事件發(fā)展初期在分享信息和調(diào)查真相方面殊為重要,但是初期過(guò)后,主流媒體對(duì)于后續(xù)結(jié)局的報(bào)道則更勝一籌。

2011年8月暴發(fā)的英國(guó)騷亂肇始于8月6日發(fā)生在倫敦托特納姆地區(qū)的一起孤立事件,然后迅速席卷倫敦,進(jìn)而漫延至英國(guó)其他城市,演變成英國(guó)30多年來(lái)最為嚴(yán)重的打、砸、搶暴力事件。整個(gè)騷亂持續(xù)了五天。該事件被認(rèn)為與多種因素有關(guān)(Lewis et al., 2011; Morrell et al., 2011),但是最令人驚訝的結(jié)果,確正如一些政客所聲稱(chēng)的——社交媒體如推特起到了關(guān)鍵作用。

推特是2006年建立的一個(gè)微博網(wǎng)站,可以允許用戶(hù)發(fā)表140個(gè)字符以?xún)?nèi)的信息(即“推文”)。最近有人估計(jì),英國(guó)的推特用戶(hù)達(dá)1000萬(wàn)。與社交媒體平臺(tái)(如臉書(shū))不同的是,推特的交友模式是單向、非相互式的。用戶(hù)可以關(guān)注任何對(duì)象,但對(duì)方可以不必關(guān)注他們。當(dāng)一個(gè)用戶(hù)關(guān)注另一個(gè)用戶(hù)時(shí),后者的推文將出現(xiàn)于前者的“推文時(shí)間軸”。但是,并非只有互粉才能看到推文:推特默認(rèn)其為一個(gè)開(kāi)放平臺(tái),推文是公開(kāi)的,可以通過(guò)推特的搜索工具找到。直接消息(DM)則例外,屬于私聊內(nèi)容,僅對(duì)接收該信息的關(guān)注者(粉絲)開(kāi)放。用戶(hù)可以通過(guò)在用戶(hù)名前加“@”的形式在推文中提及其他用戶(hù)。被提及的用戶(hù)就可以在他們的“推文時(shí)間軸”上看到該條推文。通過(guò)點(diǎn)擊“轉(zhuǎn)推”鍵,或者復(fù)制原始推文并在文字前鍵入“RT”,用戶(hù)就可以將該條推文轉(zhuǎn)發(fā)給自己的粉絲。這樣,推文便可以通過(guò)用戶(hù)的粉絲網(wǎng)絡(luò)進(jìn)行傳播。推特的一個(gè)重要舉措是標(biāo)簽的使用,標(biāo)簽設(shè)置方法是在一串文字前鍵入“#”號(hào)。標(biāo)簽為用戶(hù)提供了一個(gè)為推文添加主題標(biāo)簽的途徑,這樣他們就能在“推文時(shí)間軸”中共同創(chuàng)建一個(gè)動(dòng)態(tài)結(jié)構(gòu),有利于信息的發(fā)現(xiàn):任何人都可以通過(guò)搜索該標(biāo)簽看到其他人對(duì)該話(huà)題的意見(jiàn)表達(dá)。

表1 “騷亂清除”子語(yǔ)料庫(kù)篩選的信息流

在后面的章節(jié)中,我們將詳述我們已經(jīng)開(kāi)發(fā)出來(lái)的用于分析騷亂事件語(yǔ)料庫(kù)的方法和分析工具。然后我們將通過(guò)案例研究,展示這些方法和工具相結(jié)合是如何使我們能做詳細(xì)描述的,以及推特在騷亂發(fā)生時(shí)又是如何被使用的。最后我們將概括展望未來(lái)的一些工作領(lǐng)域。

方法

本推特語(yǔ)料庫(kù)乃是由《衛(wèi)報(bào)》及其合作伙伴遵循與推特簽署的協(xié)議所提供的。取樣范圍為2011年8月6日13: 00至8月17日20: 00發(fā)出的公開(kāi)推文。收作語(yǔ)料的推文的界定標(biāo)準(zhǔn),是必須與報(bào)道騷亂事件的《衛(wèi)報(bào)》記者團(tuán)隊(duì)擬定的54個(gè)話(huà)題標(biāo)簽相匹配。最終的語(yǔ)料庫(kù)由260萬(wàn)條推文和70萬(wàn)個(gè)不同用戶(hù)賬號(hào)組成。該語(yǔ)料庫(kù)中所有賬號(hào)的用戶(hù)信息同樣系由推特提供。

我們?cè)谧稣Z(yǔ)料庫(kù)分析時(shí)出現(xiàn)了一些具有挑戰(zhàn)性的問(wèn)題。最為突出的問(wèn)題是,其數(shù)量之大使得我們無(wú)法使用傳統(tǒng)的媒體研究方法和工具進(jìn)行分析。為了解決這一難題,我們首先嘗試使用自然語(yǔ)言處理(NLP)技術(shù);然而,通過(guò)實(shí)驗(yàn),我們的結(jié)論是:這些方法尚不能達(dá)到人工解讀推文內(nèi)容的功能水準(zhǔn)(Black et al., 2012)。

因此,我們采取的方法則是采用不那么復(fù)雜的計(jì)算機(jī)工具來(lái)揭示語(yǔ)料的底層結(jié)構(gòu),這使我們能夠發(fā)現(xiàn)具有潛在重要性的片段。然后,利用既有的定性方法對(duì)這些片段進(jìn)行分析。這個(gè)方法是以經(jīng)典的兩級(jí)流動(dòng)傳播模型為基礎(chǔ),突出顯示信息如何從“意見(jiàn)領(lǐng)袖”向外流布(Katz and Lazarsfeld, 1955; Wu et al., 2011)。為了將該模型套用于語(yǔ)料庫(kù),我們建立了一個(gè)計(jì)算機(jī)工具,將原始推文及轉(zhuǎn)發(fā)推文組成“信息流”(Lotan et al., 2011)。將信息流按大小(即轉(zhuǎn)發(fā)數(shù)量)進(jìn)行排列,這是確定其相對(duì)重要度的一個(gè)簡(jiǎn)單方法,對(duì)于決定后續(xù)的內(nèi)容分析非常重要。

我們由語(yǔ)料庫(kù)建立數(shù)據(jù)庫(kù),運(yùn)用檢索工具確定和提取信息流,以保證信息流的內(nèi)容符合我們的既定標(biāo)準(zhǔn),這與我們要分析的話(huà)題具有相關(guān)性。通過(guò)對(duì)不同組合的檢索項(xiàng)的結(jié)果檢查(標(biāo)簽有用,但是光標(biāo)簽還不夠),我們能夠確定假正例(不相關(guān)流),減少假負(fù)例(漏報(bào),但為相關(guān)流)。此外還根據(jù)作者發(fā)表的推文數(shù)量、作者被提及次數(shù)及其粉絲數(shù)對(duì)作者進(jìn)行排名。

為了解推特的使用情況,我們?yōu)橥莆膬?nèi)容(見(jiàn)附錄)開(kāi)發(fā)了一個(gè)代碼框架(Krippendorff, 2004)對(duì)信息流進(jìn)行分類(lèi)(例如事件報(bào)道、報(bào)道評(píng)論、信息請(qǐng)求等),利用最后的分組情況來(lái)了解人們?cè)谔囟ㄔ?huà)題背景下如何使用推特。對(duì)于了解推特用戶(hù)面對(duì)謠言時(shí)的反應(yīng),信息流的來(lái)源是尤為有意思的部分。為此,我們開(kāi)發(fā)了一個(gè)發(fā)文者類(lèi)型代碼框架(見(jiàn)附錄),并以此對(duì)@500次以上的賬號(hào)進(jìn)行分類(lèi)。

計(jì)算機(jī)工具及基礎(chǔ)設(shè)施

要處理260萬(wàn)條推文及其相關(guān)的元數(shù)據(jù),利用傳統(tǒng)的電腦桌面工具是很難做到的。因此我們將數(shù)據(jù)集導(dǎo)入關(guān)聯(lián)式資料庫(kù)管理系統(tǒng),使我們能快速查詢(xún)。為了使研究人員易于獲取數(shù)據(jù)集,我們利用持續(xù)集成工具Jenkins開(kāi)發(fā)了一個(gè)虛擬研究環(huán)境(VRE)(Voss and Procter, 2009)以提供基于網(wǎng)絡(luò)的用戶(hù)界面和分析工作所需的運(yùn)行能力,并管理其配置及輸出文件。因此VRE對(duì)做過(guò)的所有分析提供了一個(gè)完整的起源記錄。VRE用戶(hù)界面見(jiàn)圖1。

圖1 VRE用戶(hù)界面

每個(gè)類(lèi)型的分析都會(huì)被翻譯成一個(gè)腳本,該腳本從數(shù)據(jù)庫(kù)向確切數(shù)據(jù)輸出必要的SQL語(yǔ)句,并將其轉(zhuǎn)化為人類(lèi)可讀的適當(dāng)格式或者轉(zhuǎn)化為只需利用簡(jiǎn)單的桌面工具就能進(jìn)一步加工的格式。

VRE的主要功能是信息流分析,它能將轉(zhuǎn)發(fā)的推文與源推文相匹配。這便要將每條轉(zhuǎn)發(fā)內(nèi)容與被確定為是源推文發(fā)送者的用戶(hù)在此前所發(fā)出的每一條推文進(jìn)行比較。比較的結(jié)果是一個(gè)相似性測(cè)度。為此我們采用了Levenshtein距離(俗稱(chēng)“編輯距離”——譯注),它可以顯示轉(zhuǎn)發(fā)信息與候選的源推文的相似度。我們憑經(jīng)驗(yàn)確定編輯距離為30是一個(gè)較好的取舍點(diǎn),也就是說(shuō)我們最多允許在原始信息與轉(zhuǎn)發(fā)信息之間存在30個(gè)個(gè)體字符差異。這樣做的目的,是要允許用戶(hù)在轉(zhuǎn)發(fā)一條推文時(shí)變動(dòng)其內(nèi)容,因?yàn)橛袝r(shí)他們會(huì)加上自己的評(píng)論,但最后的轉(zhuǎn)發(fā)內(nèi)容連同屬性仍然不超過(guò)140個(gè)字符。對(duì)于深入分析過(guò)的信息流,其匹配質(zhì)量已經(jīng)超過(guò)人工檢查。

與在一個(gè)合理時(shí)間框架下由單一服務(wù)器執(zhí)行的分析腳本相比,轉(zhuǎn)發(fā)分析的計(jì)算成本是昂貴的,因?yàn)樗婕按罅砍蓪?duì)推文之間編輯距離的計(jì)算。為此我們?cè)谑グ驳卖斔勾髮W(xué)STACC云端使用了16個(gè)實(shí)例(虛擬服務(wù)器)并提供運(yùn)算資源。在這個(gè)資源水平上,該任務(wù)得以在一天之內(nèi)完成。

代碼框架

我們從制作表單開(kāi)始,著手推文代碼類(lèi)型框架的開(kāi)發(fā),包括經(jīng)信息流分析為顯要話(huà)題的推文實(shí)例表列。代碼框架開(kāi)發(fā)人員先獨(dú)立工作,然后互相對(duì)比結(jié)果。這樣就使所有云都達(dá)成一致的類(lèi)別。然后,這些初始代碼框架通過(guò)一個(gè)進(jìn)一步合并和細(xì)化的過(guò)程,便產(chǎn)生了最終的代碼框架,其頂級(jí)分類(lèi)有四項(xiàng)。

媒體報(bào)道。該類(lèi)推文要么是由主流媒體賬號(hào)發(fā)出,要么由從業(yè)于主流媒體機(jī)構(gòu)的記者發(fā)出,是對(duì)新聞事件的報(bào)道。我們收入了其他指向主流媒體報(bào)道和提供新聞鏈接的賬號(hào)發(fā)出的推文。新聞鏈接之所以重要是因?yàn)槲覀冋J(rèn)為它可以衡量該推文的“可信度”。故我們將僅僅聲稱(chēng)“我在獨(dú)立電視新聞中看到”而未提供新聞鏈接的推文排除在外。

圖片。它表現(xiàn)的是許多推特用戶(hù)使用諸如twitpic之類(lèi)的服務(wù)在他們的推文中上傳和鏈接圖片。我們認(rèn)為這代表著一類(lèi)信息,譬如,有別于媒體報(bào)道的信息,故應(yīng)自成一類(lèi)。

謠言。其編碼是針對(duì)推文中對(duì)事件除提及確鑿證據(jù)(支持性或挑戰(zhàn)性證據(jù))外還做出“宣稱(chēng)”或“駁斥”,但并未提供任何檢視該信息的途徑。有證據(jù)支持和沒(méi)有證據(jù)支持的推文是有明顯區(qū)別的。在該類(lèi)別中,我們集中收入那些突出強(qiáng)調(diào)其屬于“聽(tīng)說(shuō)”的但是又未能提供鏈接的那類(lèi)推文。同樣,當(dāng)他人“宣稱(chēng)”時(shí)可能會(huì)引發(fā)爭(zhēng)議,但這種“駁斥”,如果沒(méi)有提供鏈接,在此也將其視為“謠言”。最后,我們?cè)黾恿艘粋€(gè)編碼給那些看似在呼吁更多信息的推文或一個(gè)看似對(duì)謠言做出反應(yīng)的推文。

既有媒體報(bào)道類(lèi)也有謠言類(lèi),我們就能夠追蹤最初作為“謠言”流傳并受到主流媒體關(guān)注的新聞。這樣一來(lái),我們對(duì)此類(lèi)信息的周期也能說(shuō)出個(gè)子丑寅卯。由于推文既有賬號(hào)信息又有時(shí)間標(biāo)記,我們便可以更充分地了解謠言的生命周期。

反應(yīng)。它是為用戶(hù)對(duì)一般騷亂及對(duì)特定的騷亂相關(guān)的事件所做回應(yīng)的編碼。根據(jù)我們所見(jiàn)的子語(yǔ)料庫(kù),該類(lèi)別包含不同的子類(lèi)。而其他類(lèi)別則為大多數(shù)子類(lèi)共享,例如對(duì)搶劫的憤怒或要求查證信息。

開(kāi)發(fā)一個(gè)整體性的推文類(lèi)型代碼框架有很多好處。首先,它不但能方便地適用于其他子語(yǔ)料庫(kù),還能更方便地應(yīng)用于整個(gè)語(yǔ)料庫(kù)。其次,這意味著絕大部分來(lái)自較小子語(yǔ)料庫(kù)的資料有同樣的可比性,因?yàn)槲覀兙幋a了相同的三個(gè)頂級(jí)代碼,主要關(guān)注媒體如何報(bào)道騷亂及主流媒體和非主流媒體在推特上的行事作風(fēng),以及普通推特用戶(hù)如何討論和散布這一新聞。

重要的是,編碼框架已經(jīng)過(guò)嚴(yán)格測(cè)試,可以操作,故而不僅適用于特定的推文子語(yǔ)料庫(kù),而且對(duì)于分析整個(gè)語(yǔ)料庫(kù)也是有用的。為此,我們編碼了不同子語(yǔ)料庫(kù)的幾個(gè)小節(jié)。在不同階段測(cè)試個(gè)別編碼框架時(shí),很重要的一點(diǎn)是已確證編碼員之間的信度是很高的。

為了測(cè)試編碼框架,我們將其應(yīng)用于兩個(gè)子語(yǔ)料庫(kù),即伯明翰子語(yǔ)料庫(kù)(所有推文匹配“伯明翰”一詞,大小:50325)和BBM子語(yǔ)料庫(kù)(所有推文匹配“配料庫(kù)”一詞,大小:13139)。由不同的編碼員通讀子語(yǔ)料庫(kù),確定大于25條推文的信息流,對(duì)其進(jìn)行歸納性話(huà)題編碼。然后我們利用這些結(jié)果開(kāi)發(fā)和完善編碼框架。

所有語(yǔ)料編碼工作皆由兩位編碼員完成,若存異議,則交由第三位編碼員研判。對(duì)于謠言語(yǔ)料庫(kù),編碼員間吻合水平界于89%~96%。

發(fā)文者類(lèi)型編碼框架是專(zhuān)門(mén)用來(lái)確定語(yǔ)料庫(kù)中不同發(fā)文者類(lèi)型的。它是在羅坦等人(Lotan et al., 2011)開(kāi)發(fā)的發(fā)文者類(lèi)型編碼基礎(chǔ)上完善起來(lái)的。羅坦等人在突尼斯和埃及騷亂中注意到與推特使用有關(guān)的不同發(fā)文者類(lèi)型。我們?cè)诒狙芯恐胁捎昧嗽摼幋a框架,厘清了其中部分編碼,并對(duì)其深入開(kāi)拓,增加了我們認(rèn)為重要的另外八個(gè)發(fā)文者類(lèi)型。

推特的應(yīng)用原理

考察人們?nèi)绾谓柚缃幻襟w作為緩解危機(jī)壓力的方式,這是近年網(wǎng)絡(luò)研究的突出特點(diǎn)。在騷亂語(yǔ)料庫(kù)中,這樣的例子有數(shù)百個(gè)。為了檢測(cè)得更詳細(xì),我們選擇了一個(gè)最有說(shuō)服力的例子,即用推特調(diào)動(dòng)支持力量、組織“騷亂殘骸清理”。表1是就該話(huà)題篩選的信息流。這些發(fā)文者中許多擁有數(shù)千粉絲(表1中顯示的總數(shù)超過(guò)700萬(wàn)),他們的推文總計(jì)被轉(zhuǎn)發(fā)31000多次。

雖然表1顯示一些發(fā)文者沒(méi)有完全嚴(yán)肅地對(duì)待“清除行動(dòng)”,但該信息流反映出呼吁援助有關(guān)活動(dòng)的信息(碰頭地點(diǎn)、碰頭時(shí)間等)、贊揚(yáng)普通市民積極響應(yīng)處理善后工作等。

我們?yōu)椤膀}亂殘骸清除”語(yǔ)料庫(kù)中靠前的200個(gè)賬號(hào)歸納了類(lèi)型,結(jié)果如圖2所示。請(qǐng)注意該子語(yǔ)料庫(kù)中發(fā)文者類(lèi)型的分布與騷亂語(yǔ)料庫(kù)中的分布的不同(Vis, 2012)。在后者中,以(按順序)媒體組織、記者和騷亂賬號(hào)為主;而在前者中,則主要是名人、英國(guó)推特達(dá)人、非(新聞)媒體雇員和騷亂賬號(hào)。

圖2 “騷亂殘骸清除”子語(yǔ)料庫(kù)中發(fā)文者類(lèi)型

圖3是以“騷亂殘骸清除”為標(biāo)簽的推文時(shí)間軸。我們可以看到發(fā)文者和大量粉絲的介入對(duì)該主題的推文數(shù)量產(chǎn)生的影響:

圖3 “騷亂殘骸清除”子語(yǔ)料庫(kù)時(shí)間軸。Y軸代表每隔1分鐘的推文數(shù)量

(1)該子語(yǔ)料庫(kù)的首條推文公開(kāi)提出利用社交媒體組織“騷亂殘骸清除”的想法。

(2)這個(gè)想法得到一個(gè)積極的文藝團(tuán)體的響應(yīng)。他們隨后在自己的推特賬號(hào)資料中以自己的名義提出組織騷亂殘骸清除行動(dòng)。

(3)一個(gè)專(zhuān)門(mén)開(kāi)設(shè)用于協(xié)調(diào)“騷亂殘骸清除”的賬號(hào)發(fā)出首條推文,由此推文的數(shù)量開(kāi)始增加。

(4)第一批有大量粉絲的發(fā)文者參與進(jìn)來(lái),推文數(shù)量達(dá)到顯著水平。如表1所示,盡管按百分比來(lái)看,名人占比并不是非常突出(5%),然而他們的影響卻是顯而易見(jiàn)的。

推特謠言

謠言是與任何危機(jī)事件相伴而行的一個(gè)可以預(yù)見(jiàn)的特征,因此我們有興趣分析其在社交媒體(如推特)上的出現(xiàn)和傳播方式。其他一些研究是采用傳染模型或模擬模型來(lái)分析謠言在社交媒體上的傳播(例如:Kaigo, 2012; Leskovec, Backstrom and Kleinberg, 2009; Paranyushkin, 2012)。我們特別對(duì)不同發(fā)文者在謠言話(huà)語(yǔ)中所起的作用種類(lèi)感興趣,包括謠言展開(kāi)后他們的“會(huì)話(huà)步驟”的種類(lèi)。為此,我們利用推文類(lèi)別編碼框架為發(fā)文者會(huì)話(huà)步驟(即,宣稱(chēng)、駁斥等)的不同類(lèi)型進(jìn)行歸類(lèi),及通過(guò)內(nèi)容分析幫助決定話(huà)題。我們選擇了七個(gè)與騷亂有關(guān)的謠言進(jìn)行深入研究。

為闡述我們的發(fā)現(xiàn),我們將以有關(guān)騷亂者攻擊伯明翰兒童醫(yī)院的謠言(見(jiàn)圖4及表2)作為分析的例證。

圖4 有關(guān)騷亂者攻擊伯明翰兒童醫(yī)院謠言的時(shí)間軸

注:Y軸代表每隔10分鐘的推文數(shù)量。“-”代表支持謠言的推文,“-”代表質(zhì)疑謠言的推文(“-”定義原文如此——譯注)。

表2 從伯明翰兒童醫(yī)院子語(yǔ)料庫(kù)篩選的信息流

圖4為始于8月8日的謠言時(shí)間軸,圖中突出顯示了一些重要的推文(1-7),我們將列在表2,并在下文進(jìn)行詳細(xì)的分析。

圖4推文1-3以不同形式重復(fù)了最初的謠言,并由此產(chǎn)生了相當(dāng)多的一批轉(zhuǎn)發(fā)推文,尤其是推文3,這是該子語(yǔ)料庫(kù)中最大的信息流來(lái)源。推文4-7是不同版本的辟謠,有的是參考目擊者報(bào)道(4),有的為警察出現(xiàn)在醫(yī)院附近時(shí)的報(bào)道(5),及其他報(bào)道(7)。

總的來(lái)看,在騷亂語(yǔ)料庫(kù)中,該子語(yǔ)料庫(kù)內(nèi)很多推文是帶有鏈接指向其他媒體的,例如手機(jī)圖片(見(jiàn)圖5a)、博客,還有一小部分其他媒體,如報(bào)紙網(wǎng)站。

圖5 推文中提供的圖片舉例

我們通過(guò)將謠言子語(yǔ)料庫(kù)信息流編碼為“宣稱(chēng)”“駁斥”等制作數(shù)據(jù)集,利用這些數(shù)據(jù)集,《衛(wèi)報(bào)》互動(dòng)組為每個(gè)謠言的時(shí)間發(fā)展軌跡創(chuàng)建了動(dòng)漫可視效果(見(jiàn)圖6),展示“宣稱(chēng)” “駁斥”在謠言生命周期中的重心變化。

圖6 兒童醫(yī)院謠言時(shí)間軸動(dòng)漫示意

注:圖6(a)和(b)是從伯明翰兒童醫(yī)院謠言時(shí)間軸的可視化動(dòng)漫圖截取而來(lái),顯示了支持謠言和質(zhì)疑謠言的信息流。每個(gè)小圓圈代表一條推文,其大小反映了發(fā)文者的影響力(即粉絲數(shù))。推文按其所屬信息流分組。我們?cè)诒纠锌梢钥吹阶畛踔С种{言的推文是呈怎樣的一邊倒形勢(shì)(a),但是兩小時(shí)后,質(zhì)疑的推文就占據(jù)了多數(shù)。可視化圖請(qǐng)見(jiàn)http://www.guardian.co.uk/uk/interactive/2011/dec/07/londonriots-twitter

討論

在騷亂發(fā)生的隨后一段時(shí)間內(nèi),一些政治人物和媒體評(píng)論員很快就對(duì)社交媒體包括推特等紛紛發(fā)聲,批評(píng)其規(guī)模之大和散布之廣。在社交媒體是否有被用來(lái)煽動(dòng)非法活動(dòng)這個(gè)問(wèn)題上,答案必然是肯定的:這一罪責(zé)已被未審先判。然而,根據(jù)我們語(yǔ)料庫(kù)中的現(xiàn)有證據(jù),推特幾乎是一邊倒地被用在積極的方面,特別是在組織騷亂殘骸清除這件事上。除此之外,我們還注意到警方在這種危機(jī)之中是拒絕關(guān)閉社交媒體網(wǎng)站這一提議的,理由是社交媒體是收集信息、公眾告知和提供建議的寶貴工具。不過(guò)我們的研究確實(shí)能證實(shí)前人的研究結(jié)論(例如Crump, 2011):就是警察尚未掌握有效使用推特等社交媒體平臺(tái)的竅門(mén)。

通過(guò)表2研究謠言在推特上的傳播方式,我們可以用自己的發(fā)現(xiàn)來(lái)闡述這一點(diǎn)。伯明翰兒童醫(yī)院的案例研究顯示出我們所研究的七條謠言的共同規(guī)律或發(fā)展軌跡。

(1)一個(gè)謠言總是始于發(fā)表推文者聲稱(chēng)發(fā)生了某事件。

(2)謠言被轉(zhuǎn)發(fā) [見(jiàn)圖6(a)]。某種形式的證據(jù),譬如目擊報(bào)道,參考主流新聞源,圖片鏈接(見(jiàn)圖5),或網(wǎng)上的主流新聞源,等等,被添加在原始推文一起再轉(zhuǎn)發(fā)出去,該謠言遂搖身一變成為各種版本紛紛登場(chǎng)。

(3)他人開(kāi)始質(zhì)疑其可信性(即開(kāi)始“駁斥”),這種質(zhì)疑或許是基于邏輯辯論(例如,“這是不可能的,因?yàn)椤保蚴菕伋鲂碌男畔?lái)質(zhì)疑謠言證據(jù)的可靠性。

(4)開(kāi)始達(dá)成共識(shí) [見(jiàn)圖6(b)]。如果一致認(rèn)為謠言為假,它有可能仍然會(huì)出現(xiàn)在語(yǔ)料庫(kù)中,因?yàn)橐恍┖髞?lái)者仍會(huì)收到原始推文并加入轉(zhuǎn)發(fā)者行列。

這些謠言的一個(gè)共同特征是主流媒體出現(xiàn)的時(shí)間落后于社交媒體上的大眾資源報(bào)道(即所謂的“民間新聞”)。例如,在伯明翰兒童醫(yī)院案例研究中(見(jiàn)表2), “駁斥”似乎一開(kāi)始就受兩方面的驅(qū)動(dòng):(a)源于貌似真實(shí)的目擊者報(bào)道(……女友剛打完電話(huà)……),(b)對(duì)最初的“宣稱(chēng)”呼吁另一種符合邏輯的解釋?zhuān)āW詈笫侵髁髅襟w報(bào)道(6:伯明翰騷亂brmb電臺(tái)和首席醫(yī)療官已經(jīng)確認(rèn)……)。這表明,由大量“制作人”共同努力可能比主流媒體更有競(jìng)爭(zhēng)力,有時(shí)甚至更出色。同樣,我們也注意到警方和其他應(yīng)急服務(wù)機(jī)構(gòu)在謠言早期階段的缺位。例如,在伯明翰兒童醫(yī)院的案例研究中,首條謠言傳出24小時(shí)后才見(jiàn)到主流媒體在推特上發(fā)布來(lái)自當(dāng)?shù)鼐降膱?bào)告。

鏈接到其他媒體,如手機(jī)圖片(見(jiàn)圖5)、博客和在線(xiàn)報(bào)紙網(wǎng)址等作為佐證是所有七條謠言案例研究中的共同特征。然而,案例研究也表明不能輕信這種證據(jù)。例如,圖5(b)中倫敦眼著火圖片的真實(shí)性隨后就受到質(zhì)疑(見(jiàn)表3),有人宣稱(chēng)圖片系偽造(被“PS”過(guò)),使人誤認(rèn)為是火光。

表3 宣稱(chēng)倫敦眼起火的圖片為虛假的推文

如此看來(lái),推特既是一個(gè)滋生謠言的溫床,也提供了強(qiáng)大的自我修正機(jī)制(Mendoza et al., 2010; Sutton, Palen and Shklovski, 2008)。在審視這些案例研究中支持和否定謠言的信息流比例時(shí),我們的發(fā)現(xiàn)與門(mén)多薩等人(Mendoza et al., 2010)的研究發(fā)現(xiàn)大體上是一致的。門(mén)多薩等人的研究指出,用戶(hù)處理“真實(shí)”和“錯(cuò)誤”謠言的方式是不同的:前者90%以上的時(shí)間都是受肯定的,而后者半數(shù)時(shí)間是被質(zhì)疑的(即被詰問(wèn)或否定)。雖然我們的發(fā)現(xiàn)不支持推特本質(zhì)上有易受謠言影響的說(shuō)法(Burns and Eltham, 2009),不過(guò)有一個(gè)案例研究的正是如何強(qiáng)化自我修正機(jī)制以達(dá)到更快辨識(shí)錯(cuò)誤謠言的目的。

在這里我們不但能分析出哪些信息流具有顯著意義及它們是如何傳播的,也能清楚地知道原始推文是誰(shuí)發(fā)出來(lái)的,這樣就能夠?qū)⒎治鏊教岣叩斤@示出某一些發(fā)文者,而忽略其他發(fā)文者的高度。然而,要分析推文內(nèi)容、更好地了解部分發(fā)文者如何參與進(jìn)去及如何與其他發(fā)文者攪和在一起,卻還有更多的工作要做。雖然發(fā)文者被@的次數(shù)本身可以說(shuō)明一些問(wèn)題,但是要更好地解讀這一數(shù)據(jù),我們還需注意推文產(chǎn)生的背景以及這些發(fā)文者被@的方式。由于“@”本質(zhì)上包括多種可能(來(lái)自原始推文,以加@的方式回復(fù)別人提及自己),因此對(duì)此做更詳細(xì)的調(diào)查十分重要。例如,某些提及(@)可能凸顯那些在報(bào)道中用推特用得很出色的媒體發(fā)文者,以及那些表現(xiàn)平平的。在研究中,我們發(fā)現(xiàn)這兩種情況都存在。

我們注意到,將推特作為一項(xiàng)社會(huì)研究的資料來(lái)源,有著多方面的方法。首先,騷亂語(yǔ)料庫(kù)的采集方法意味著我們必須允許抽樣偏差這一可能性的存在,這可能會(huì)使我們的研究出現(xiàn)變形。研究中可能出現(xiàn)這樣的情況,一些推文與我們的調(diào)查具有相關(guān)性,但是由于沒(méi)有包含任何一個(gè)篩選推文所用的標(biāo)簽,卻被排除在語(yǔ)料庫(kù)之外了。其次,推特用戶(hù)整體上而言并不能代表人口總數(shù)(Mislove et al., 2011)。總之,如何避免社交媒體資源的抽樣偏差仍然是一個(gè)待解的難題(Omand, Bartlett and Miller, 2012)。

最后,至于使用推特煽動(dòng)或組織騷亂,有一點(diǎn)與我們可能從騷亂語(yǔ)料庫(kù)中得出的結(jié)論特別相關(guān)的,是我們的抽樣范圍排除了沒(méi)有公開(kāi)發(fā)表出來(lái)的那些直接消息(DM)。

結(jié)論和展望

我們?cè)诒疚闹姓故玖宋覀兊姆椒ㄔ诮Y(jié)合計(jì)算機(jī)工具和更多已有的內(nèi)容分析方法時(shí),是如何對(duì)巨大語(yǔ)料庫(kù)進(jìn)行詳細(xì)分析的。計(jì)算機(jī)工具提供了揭示語(yǔ)料庫(kù)中的有用結(jié)構(gòu)的手段,幫助我們決定將人的專(zhuān)業(yè)知識(shí)擺放在什么位置——人的知識(shí)對(duì)語(yǔ)料庫(kù)結(jié)構(gòu)的深入解讀和穩(wěn)健分析至關(guān)重要。

然而我們也看到了我們方法的不足。特別是,我們應(yīng)該借助不斷進(jìn)步的計(jì)算機(jī)技術(shù)來(lái)分析社交媒體,確保以最有效的方式來(lái)使用那些依賴(lài)于人類(lèi)知識(shí)的方法。

第一,本研究的語(yǔ)料庫(kù)與我們未來(lái)能收集到的語(yǔ)料庫(kù)相比是很小的。因此,我們使用的基礎(chǔ)設(shè)施必須是可擴(kuò)展的,這樣才能滿(mǎn)足不斷發(fā)展的計(jì)算機(jī)要求。我們現(xiàn)在正在擴(kuò)建基礎(chǔ)設(shè)施,使之可以配置于基于云的多種解決方案,例如亞馬遜EC211或Eduserve12。這為我們提供了一個(gè)有彈性的可擴(kuò)展空間,允許用戶(hù)保持對(duì)其資料的完全掌控。

第二,近年更多基以NLP的技術(shù)進(jìn)行的實(shí)驗(yàn),鼓舞著我們?cè)诒炔蹲降降男畔⒘髡Z(yǔ)義更為豐富的相似性概念基礎(chǔ)上生成推文集群。這將有助于揭示大型語(yǔ)料庫(kù)中更多有用的結(jié)構(gòu),以抵消不斷增加的數(shù)據(jù)質(zhì)疑。不過(guò),基于NLP的技術(shù),短期內(nèi)其可靠性不大可能達(dá)到在使用中“無(wú)人監(jiān)督”的水平。因此在由人工編碼員進(jìn)行注解的調(diào)查中,我們強(qiáng)調(diào)標(biāo)簽性能對(duì)于語(yǔ)料庫(kù)代表性樣本的重要性。同時(shí)要注意,微博中的不規(guī)則語(yǔ)法和非標(biāo)準(zhǔn)語(yǔ)言會(huì)給“代表性”的定義帶來(lái)新的挑戰(zhàn)。

第三,(與前一點(diǎn)有關(guān))如果要在社會(huì)調(diào)查中妥善應(yīng)用計(jì)算機(jī)工具,那么用戶(hù)充分了解這些工具的優(yōu)劣點(diǎn)及其工作方式至為重要。因此,社會(huì)研究人員接受計(jì)算機(jī)方法和計(jì)算機(jī)工具的基本概念培訓(xùn)也是極為重要的,這樣能夠決定何時(shí)及如何應(yīng)用它們(Wing, 2008)。

第四,在力求更好地了解推特等平臺(tái)面對(duì)危機(jī)時(shí)所起作用的同時(shí),我們要記住,社交媒體只是屬于一個(gè)大得多也復(fù)雜得多的媒體和信息生態(tài)的一部分,必須承認(rèn)它們之間的相互關(guān)系。

第五,可以肯定,警察、應(yīng)急服務(wù)機(jī)構(gòu)和政府機(jī)構(gòu)還存在危機(jī)發(fā)生時(shí)如何有效使用推特等社交媒體平臺(tái)的難題。雖然我們對(duì)推特謠言的分析表明,錯(cuò)誤謠言是可以自我修正的,但是我們認(rèn)為,公眾信任的更為及時(shí)的消息來(lái)源更能維護(hù)公共安全。我們正與英國(guó)多個(gè)政府機(jī)構(gòu)合作開(kāi)發(fā)操作指南和政策建議,以化解這種挑戰(zhàn)(Procter et al., 2013)。例如,可以借鑒“昆士蘭警察服務(wù)媒體單元”處理謠言(Bruns et al., 2012)的成功經(jīng)驗(yàn)。

參考文獻(xiàn)

Allan, S.2006. Online News: Journalism and the Internet. Maidenhead: Open University Press.

Atkinson, M., Britton, D., DeRoure, D., Garnett, N., Geddes, N., Gurney, R., Trefethen, A. E. 2009. Century-of-information Research(CIR)-A Strategy for Research and Innovation in the Century of Information. Prometheus 27, 27-45.

Barsky, L., Trainor, J., and Torres, M. 2006. Disaster Realities in the Aftermath of Hurricane Katrina: Revisiting the Looting Myth. Natural Hazards Center Quick Response Report 84, 1-4.

Black, W. J., Procter, R., Gray, S., and Ananiadou, S. 2012. A Data and Analysis Resource for An Experiment in Text Mining A Collection of Micro-blogs on Apolitical Topic. Proceedings of the Eighth International Conference on Language Resources and Evaluation. Istanbul.

Bruns, A. 2006. Wikinews: The Next Generation of Online News? Scan Journal, 3(1). Retrieved from http://www.scan.net.au/scan/journal/display.php?journal_id=69. Bruns, A.(2008). Blogs, Wikipedia, Second Life, and Beyond: From Production Toprodusage. New York, NY: Peter Lang.

Bruns, A., Burgess, J., Crawford, K. and Shaw, F. 2012. #qldfloods and @QPSMedia: Crisis Communication on Twitter in the 2011 South East Queensland Floods. Brisbane: ARC Centre of Excellence for Creative Industries and Innovation. Available at mappingonlinepublics.net/2012/01/11/cci-report-on-qldfloods-and-qpsmedia-in-the-2011-floods/.

Burns, A. and Eltham, B. 2009. “Twitter Free Iran: An Evaluation of Twitter's Role Inpublic Diplomacy and Information Operations in Iran's 2009 Election Crisis. ”In Papandrea, F. and Armstrong, M.(Eds.)Record of the Communications Policy&Research Forum 2009. Network Insight Pty Ltd. Available at www.networkinsight.org/events/cprf09.html/group/6.

Crump, J. 2011. What Are the Police Doing on Twitter? Social Media, the Police and the Public. Policy and Internet 3, Article 7.

Halfpenny, P., and Procter, R. 2010. The E-Social Science Research Agenda. Philosophical Transactions of the Royal Society 368, 3761-3778.

Halfpenny, P., Procter, R., Lin, Y., and Voss, A. 2009. Developing the UK e-so-cialscience Research Programme. In N. Jankowski(Ed.), e-Research, Transformationin Scholarly Practice, 73-90. Abingdon: Routledge.

Kaigo, M. 2012. Social Media Usage During Disasters and Social Capital: Twitter and the Great East Japan Earthquake. Keio Communication Review 34, 19-35.

Katz, E., and Lazarsfeld, P. F. 1955. Personal Influence. Glencoe, IL: Free Press.

Krippendorff, K. 2004. Content Analysis: An Introduction to Its Methodology(2nded.). Thousand Oaks, CA: Sage.

Leskovec, J., Backstrom, L., and Kleinberg, J. 2009. Meme-tracking and the Dynamics of the News Cycle. In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris(pp. 497-506). New York, NY: ACM Press.

Lewis, P., Newburn, T., Taylor, M., Mcgillivray, C., Greenhill, A., Frayman, H., and Procter, R. 2011. Reading the Riots: Investigating England's Summer of Disorder. Retrieved from http://www.guardian.co.uk/uk/series/reading-the-riots.

Lotan, G., Graeff, E., Ananny, M., Gaffney, D., Pearce, I, and Boyd, D. 2011. The Revolutions Were Tweeted: Information Flows During the 2011 Tunisian and Egyptian Revolutions. International Journal of Communication(5)Feature: 1375-1405.

Mendoza, M., Poblete, B. and Castillo, C. 2010. Twitter under Crisis: Can We Trust What We RT? In 1st Workshop on Social Media Analytics(SOMA 10). Washington, D. C. :ACM Press.

Mislove, A., Lehman, S., Yong-Yeol, A., Jukka-Pekka, O., and Rosenquist, N. J.2011. Understanding the Demographics of Twitter Users. Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media, Barcelonapp. International Journal of Social Research Methodology 211, 554-557.

Morrell, G., Scott, S., McNeish, D., and Webster, S. 2011. The August Riots in England: Understanding the Involvement of Young People. National Survey Research Centre. Retrieved from www.natcen.ac.uk/study/the-august-riots-in-england.

Navarro, G. 2001. A Guided Tour to Approximate String Matching. ACM Computing Surveys 33, 31-88.

Omand, D., Bartlett, J., and Miller, C. 2012. #INTELLIGENCE. Demos, London. Retrieved from www.demos.co.uk/publications/intelligence.

Paranyushkin, D. 2012. Informational Epidemics and Synchronized Viral Contagion in Social Networks. Nodus Labs. Retrieved from http://noduslabs.com/publications/text-polysingularity-network-analysis.pdf.

Procter, R., Crump, J., Karstedt, S., Voss, A., and Cantijoch, M. 2013.“Reading Theriots: What Were the Police Doing on Twitter? ”Policing and Society Specialissue on Policing and Cybercrime.

Sutton, J., Palen, L., and Shklovski, I. 2008. Backchannels on the Front Lines: Emergent Uses of Social Media in the 2007 Southern California Wildfires. In Proceedings of the 5th International ISCRAM Conference. Washington, DC: ISCRAM.

Thelwall, M., and Stuart, D. 2007. “RUOK? Blogging Communication Technologies During Crises. ”Journal of Computer Mediated Communication 12, 523-548.

Twitter. 2011. One Hundred Million Voices. Twitter Blog. Retrieved from blog. twitter.com/2011/09/one-hundred-million-voices.html.

Vis, F. 2009. Wikinews Reporting of Hurricane Katrina. In S. Allan & E. Thorsen(Eds.), Citizen Journalism: Global Perspectives(pp. 65-74). New York, NY: Peter Lang.

Vis, F. 2012. Reading the Riots on Twitter: Who Tweeted the Riots? Retrieved from Researching Socialmedia.org/2012/01/24/reading-the-riots-on-twitter-who-tweeted-the-riots/.

Voss, A., and Procter, R. 2009. Virtual Research Environments in Scholarly Work and Communications. Library Hi Tech Journal, Special Issue on Virtual Research Environments 27, 174-190.

Weaver, M. 2010. Iran's Twitter Revolution was Exaggerated, Say Editor, Guardian. Retrieved from www.guardian.co.uk/world/2010/jun/09/iran-twitter-revolution-protests.

Wing, J. 2008. “Computational Thinking and Thinking about Computing. ”Philosophical Transactions of the Royal Society 366, 3717-3725.

Wu, S., Hofman, J. M., Mason, W. A., and Watts, D. J. 2011. Who Says What Towhom on Twitter. In Proceedings of the 20th International Conference on World Wide Web Conference, Hyderabad(pp. 705-714). New York, NY: ACM Press.

責(zé)任編輯:彭銘剛

主站蜘蛛池模板: 小金县| 东台市| 瑞金市| 海口市| 施甸县| 枣庄市| 饶河县| 海阳市| 浮山县| 东光县| 衡山县| 辽源市| 信阳市| 无极县| 四川省| 永吉县| 桂东县| 广河县| 诏安县| 德钦县| 浦东新区| 师宗县| 宜兰市| 磐石市| 大田县| 浪卡子县| 迁安市| 山东省| 社旗县| 嫩江县| 滨州市| 阳谷县| 泰和县| 马山县| 洪江市| 海阳市| 耿马| 平山县| 横山县| 桐柏县| 仙桃市|