- 計算社會科學:數字時代的社會科學研究
- 集智俱樂部 騰訊研究院編著
- 2078字
- 2021-04-25 16:48:29
計算社會科學研究障礙
在研究范式上,現有的解釋人類行為的理論和范式是在無法獲取和處理幾千萬兆的人類交互信息數據的時候發展和建立起來的。比如說,基于幾十個人某一時刻的數據而建構的社會網絡理論如何能解釋上百萬人之間的相互關系呢?關于人們如何互動的大量新興數據可以為研究人類的集體行為提供新的視角,但我們目前社會科學的研究范式并不一定會接受。
推進計算社會科學還存在著很多制度性障礙。計算社會科學與物理和生物學的研究問題不同,在觀察與干預研究對象過程中也存在著不同的挑戰。在物理學和生物學實驗中,夸克和細胞不像人類一樣,會因為別人的觀察而不自覺或者刻意的掩蓋自己的行為,它們乖乖的聽從人類的干預而不會反抗。就基礎條件而言,從社會科學到計算社會科學所要解決的困難要比從生物學到計算生物學之間克服的困難大得多,究竟為什么會這樣呢?主要是從社會科學到計算社會科學的發展需要解決分布式監控、數據使用許可權獲取和加密等問題,在社會科學領域中這些資源都較為缺乏。
也許最令人頭疼的問題還是數據的獲取和保護,目前很多研究所需數據都涉及到個人隱私。以美國AOL公司事件為例(13),在2006年8月,AOL公司公布了2006年3月1號到5月31號這3個月用戶的真實搜索記錄,包括1900萬搜索,1080多萬不一樣的搜索詞,還有65萬8000個用戶ID(美國AOL公司是一家在線信息服務公司,可提供電子郵件、新聞組、教育和娛樂服務,并支持對因特網訪問,2015年被威瑞森通信(Verizon Communications)收購)。雖然用戶的ID是匿名的,但如果你足夠細心認真的話,還是可能從這8000多個用戶中發現足夠多的信息。有一位記者就從搜索的地址和姓名中快速找到了一位62歲的老太太,并且老太太證實了那些羅列出來的搜索詞確實是她的。你還可以從搜索詞中看到這樣一些關鍵詞
(來源:https://www.seozac.com/other-se/aol-data/)
1、怎樣炸掉一棟樓
2、怎樣給別人下藥
3、怎樣制造炮彈
4、怎樣攻入別人的電腦
5、怎樣殺死太太
6、怎樣殺人能夠不留痕跡
7、......
AOL公司做出的這件蠢事給社會帶來了一場大混亂,雖然該網頁幾個小時之后就被撤下,但數據卻被網友們在互聯網上廣泛傳播,這也為私人公司擅自分享私人數據敲了警鐘。
設想現在,如果谷歌、百度、天貓、騰訊、京東等互聯網巨頭突然公布了所有人的搜索記錄、聊天記錄、購物記錄等,更不幸的是,如果你瀏覽器的登錄昵稱是你的真實名字,同時你多次在瀏覽器中搜索你家附近的加油站、超市等信息,并且在天貓購物平臺中多次輸入你的地址,那么你可能很快就被定位。根據你的搜索記錄,你將被貼上各種各樣的標簽,“房奴”、“彩妝迷”以及“二次元”等。更可怕的是,你的電話可能會被各種銷售公司打爆,生活將變得一塌糊涂。
因此,為了保護個人的數據隱私和企業的利益,為了能讓這些數據發揮作用從而促進科學研究的進步,企業和科學家之間建立起合作共贏的數據分享模式是非常有必要的。總體來說,妥當地處理隱私問題是非常必要的。最近美國國家研究委員會有關地理信息系統的報告就特別指出,即使是非常仔細地匿名化數據,還是有可能重新分析出個體的隱私數據(14)。去年,美國國家健康局和惠康信托基金會突然停止了一些基因數據庫的在線獲取功能(15)。盡管這些數據只是非常簡單地報告了某些特定的遺傳標記的總頻率,根本沒有包含個人信息,一些研究者仍然認為,基于數據庫中每個個體的大量數據,依照現有的統計技術,依舊能夠重新定位到個體(16)。
因為一次偶然的違背個人隱私事故的發生,就可能使得社會對信息共享深惡痛絕,甚至會頒布一些扼殺計算社會科學發展的法律條文。此時我們迫切需要制定合理的規章制度,既能夠降低信息泄露風險,又可以保留數據的研究價值。作為學術界自我管理的核心制度,美國機構審查委員會(IRB)需要加強他們的科技知識以了解新技術對于個體的潛在侵權和傷害,因為他們目前的規定中有關傷害的定義已經難以評估這些新型的傷害。IRB的審查員們現有的技術也很難判斷數據有沒有“真正的匿名化”。除了上述問題外,IRB可能有必要建立起一個處理數據安全問題的部門。目前,已經有很多私人企業手中握有大量的數據,但卻沒有一個統一的標準來保護數據安全。如果科學家們要用這些數據做研究,就需要考慮到數據的隱私問題,開發技術保護個人數據的隱私,這些技術將會反過來幫助政府和公司保護數據安全和客戶的隱私(17)。
與其他新興交叉學科一樣(如:可持續發展科學),若要發展新興的計算社會科學,就需要建立新的范式培養新的學者。大學中終身教職評定委員會和各個期刊的編輯部需要積極地鼓勵新興學者在跨學科建設方面做出的努力。最開始,計算社會科學的發需要社會科學和計算機科學的學者組成團隊一起努力,但來自不同學科的學者努力是遠遠不夠的,計算社會科學的發展最終還是取決于學術界愿不愿意培養計算社會科學家、具有計算相關知識的社會科學家或者是具有社會科學知識的計算機科學家團隊。好在認知科學的出現為計算社會學的發展提供了一個很好的范例。認知科學的研究涉及從神經生物學到哲學到計算機科學等各個領域。它吸引了大量資源投入來創建一個共同領域,并在上一代為公共事業創造了巨大的進步。我們認為計算社會科學具有類似的潛力,值得進行類似的投入。