- 網絡科學中的度量分析與應用
- 陳增強 雷輝 史永堂
- 1595字
- 2020-05-07 10:20:58
1.7 大數據時代的網絡分析
我們生活在一個互聯實體構成的復雜世界中。人類涉足的所有領域,從生物學到醫學、經濟學和氣候科學,都充滿了大規模數據集。
大數據時代的數據呈現大量、多樣、真實、快速、價值等特點。這些數據集將實體模擬為節點,節點之間的連接被模擬為邊,從不同且互補的角度描述著復雜的真實世界系統。
數據時代的到來給致力于復雜網絡的研究帶來了新的機遇和挑戰。國務院于2015年8月頒發的《促進大數據發展行動綱要》中明確要求要“融合數理科學、計算機科學、社會科學及其他應用學科,以研究相關性和復雜網絡為主,探討建立數據科學的學科體系”。
復雜網絡的研究歷程體現了人們處理數據的能力不斷提升。以小世界實驗為例,米爾格拉姆當初的實驗只涉及到300人左右。2001年,Watts等人建立了一個“小世界項目”網站以檢驗六度分離假說,有6萬多名志愿者參加了該實驗。近年來,各種在線社會網絡不斷涌現,產生了規模越來越龐大的網絡數據。2011年,Facebook信息平臺對于其平臺上大約7.21億個活躍用戶的研究表明,兩個用戶之間的平均距離僅為4.74[31];2016年2月發布的結果表明,Facebook上大約15.9億活躍用戶之間的平均距離縮短到了4.57[32]。汪小帆教授在文獻[33]中總結了數據時代的網絡科學研究特別關注的一些問題,其中包括基于數據的網絡構建、特征挖掘、特征建模、網絡控制等重要問題。
(1)基于數據的網絡構建
隨著人們能夠收集的數據規模越來越大,種類日益增多,如何基于大數據構建合適的網絡也變得日益重要。例如,互聯網和WWW等網絡通常通過爬取等方式獲得不完整節點和連邊,而生物網絡中的許多連邊(如蛋白質之間的相互作用)目前尚未能通過實驗獲取。因此,對實際復雜網絡進行分析面臨如下問題:如何獲得高質量的網絡結構數據?如何科學地分析數據質量?對不完整的網絡結構數據所做的分析在多大程度上能夠推廣到整個網絡?此外,即使有了高質量的網絡數據,針對所研究的問題,往往也需要對數據做恰當的預處理以生成合適的網絡。
(2)基于網絡的特征挖掘
近年來,人們從不同的角度嘗試揭示實際復雜網絡的各種結構性質,并取得了不少有價值的成果。但是,網絡科學發展到今天已遠不能僅僅停留在計算小世界和無標度等性質的水平上,必須要有新的發現與認識,解決新的問題,如:哪些拓撲性質對刻畫網絡結構具有重要性?各種拓撲性質之間具有什么樣的關系?同時,如何有效處理包含數千萬乃至數億節點的網絡等相關的算法問題也是在大數據背景下面臨的新挑戰?;诖髷祿乃惴ㄑ芯坑锌赡艹蔀閺碗s性科學研究的技術基礎之一,從節點重要性分析、社團結構挖掘到鏈路預測和推薦算法等,其算法復雜性分析、快速近似算法、并行計算、分布式圖存儲問題等都值得深入研究。
(3)基于特征的網絡建模
前些年網絡科學研究主要集中于固定拓撲結構的網絡,而現實網絡很多是隨時間和空間變化的。在含有時間空間的網絡上的動力學過程可能會呈現出與靜態網絡和非空間網絡極為不同的規律。許珺等在《中國計算機學會通訊》上發表的文章對空間網絡數據挖掘作了很好的綜述[34]。此外,以前網絡科學研究主要針對的是單個網絡,而事實上許多網絡都不是孤立存在的,而是與其他網絡之間存在著相互依賴、合作或競爭等關系。隨著數據獲取能力的不斷增強,對多層網絡(也稱網絡的網絡)的理論與應用研究將會不斷深入[35]。
(4)數據驅動的網絡控制
在控制界,對大系統控制的研究已有較長的歷史并取得了不少成果。對于大規模復雜網絡系統的控制而言,近年關注的重點是能否以及如何通過對部分節點直接施加控制而達到控制目標[31]。一些挑戰性問題包括:①可行性問題,當網絡規模很大時,控制理論中已有的判據和算法的計算復雜度往往難以承受,因此需要尋找新的有效算法;②有效性問題,如何選取受控節點才能使得達到控制目標所花的代價盡可能小;③魯棒性問題,大規模復雜網絡往往面臨由于隨機故障或者有意攻擊而導致的節點或連邊失效,需要給出判別大規模網絡控制系統中的關鍵節點和連邊的有效算法。