- 深入淺出圖神經(jīng)網(wǎng)絡(luò):GNN原理解析
- 劉忠雨 李彥霖 周洋
- 1954字
- 2020-01-21 15:40:59
1.4 圖數(shù)據(jù)深度學(xué)習(xí)
作為一種重要的數(shù)據(jù)類型,圖數(shù)據(jù)的分析與學(xué)習(xí)的需求日益凸顯,許多圖學(xué)習(xí)(Graph Learning)的理論均專注于圖數(shù)據(jù)相關(guān)的任務(wù)學(xué)習(xí)。譜圖理論(Spectral Graph Theory)[2]是將圖論與線性代數(shù)相結(jié)合的理論,基于此理論發(fā)展而來的譜聚類相關(guān)算法[3],可以用來解決圖的分割或者節(jié)點的聚類問題。統(tǒng)計關(guān)系學(xué)習(xí)(Statistical Relational Learning)[4]是將關(guān)系表示與似然表示相結(jié)合的機器學(xué)習(xí)理論,區(qū)別于傳統(tǒng)的機器學(xué)習(xí)算法對數(shù)據(jù)獨立同分布(independent and Identically Distributed,數(shù)據(jù)對象是同類且獨立不相關(guān)的)的假設(shè),統(tǒng)計關(guān)系學(xué)習(xí)打破了對數(shù)據(jù)的上述兩種假設(shè),對圖數(shù)據(jù)的學(xué)習(xí)具有更好的契合度。為了更加貼合實際場景中的異構(gòu)圖數(shù)據(jù),異構(gòu)信息網(wǎng)絡(luò)(Heterogeneous Information Network)[5]分析被提出,用以挖掘異構(gòu)圖中更加全面的結(jié)構(gòu)信息和豐富的語義信息。由于這些年深度學(xué)習(xí)在實際應(yīng)用領(lǐng)域取得的巨大成就,表示學(xué)習(xí)和端對端學(xué)習(xí)的概念日益得到重視,為了從復(fù)雜的圖數(shù)據(jù)中學(xué)習(xí)到包含充分信息的向量化表示,出現(xiàn)了大量網(wǎng)絡(luò)表示學(xué)習(xí)(Network Embedding)[6]的方法。然而網(wǎng)絡(luò)表示學(xué)習(xí)很難提供表示學(xué)習(xí)加任務(wù)學(xué)習(xí)的端對端系統(tǒng),基于此,圖數(shù)據(jù)的端對端學(xué)習(xí)系統(tǒng)仍然是一個重要的研究課題。
由于圖數(shù)據(jù)本身結(jié)構(gòu)的復(fù)雜性,直接定義出一套支持可導(dǎo)的計算框架并不直觀。與圖數(shù)據(jù)相對應(yīng)的數(shù)據(jù)有圖像、語音與文本,這些數(shù)據(jù)是定義在歐式空間中的規(guī)則化結(jié)構(gòu)數(shù)據(jù),基于這些數(shù)據(jù)的張量計算體系是比較自然且高效的。圖1-11給出了圖數(shù)據(jù)與其他幾類常見類型數(shù)據(jù)的對比。圖像數(shù)據(jù)呈現(xiàn)出規(guī)則的2D柵格結(jié)構(gòu),這種柵格結(jié)構(gòu)與卷積神經(jīng)網(wǎng)絡(luò)的作用機制具有良好的對應(yīng)。文本數(shù)據(jù)是一種規(guī)則的序列數(shù)據(jù),這種序列結(jié)構(gòu)與循環(huán)神經(jīng)網(wǎng)絡(luò)的作用機制相對應(yīng)。

圖1-11 圖像和語音文本數(shù)據(jù)類型
受圖信號處理(Graph Signal Processing)[7]中對圖信號卷積濾波的定義的啟發(fā),近幾年發(fā)展出了一套基于圖卷積操作并不斷衍生的神經(jīng)網(wǎng)絡(luò)理論。本書將這類方法統(tǒng)稱為圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN[8][9][10])。下面我們簡述其發(fā)展歷程。
2005年,Marco Gori等人發(fā)表論文[11],首次提出了圖神經(jīng)網(wǎng)絡(luò)的概念。在此之前,處理圖數(shù)據(jù)的方法是在數(shù)據(jù)的預(yù)處理階段將圖轉(zhuǎn)換為用一組向量表示。這種處理方法最大的問題就是圖中的結(jié)構(gòu)信息可能會丟失,并且得到的結(jié)果會嚴重依賴于對圖的預(yù)處理。GNN的提出,便是為了能夠?qū)W(xué)習(xí)過程直接架構(gòu)于圖數(shù)據(jù)之上。
隨后,其在2009年的兩篇論文[12][13]中又進一步闡述了圖神經(jīng)網(wǎng)絡(luò),并提出了一種監(jiān)督學(xué)習(xí)的方法來訓(xùn)練GNN。但是,早期的這些研究都是以迭代的方式,通過循環(huán)神經(jīng)網(wǎng)絡(luò)傳播鄰居信息,直到達到穩(wěn)定的固定狀態(tài)來學(xué)習(xí)節(jié)點的表示。這種計算方式消耗非常大,相關(guān)研究開始關(guān)注如何改進這種方法以減小計算量。
2012年前后,卷積神經(jīng)網(wǎng)絡(luò)開始在視覺領(lǐng)域取得令人矚目的成績,于是人們開始考慮如何將卷積應(yīng)用到圖神經(jīng)網(wǎng)絡(luò)中。2013年Bruna等人首次將卷積引入圖神經(jīng)網(wǎng)絡(luò)中,在引文[14]中基于頻域卷積操作的概念開發(fā)了一種圖卷積網(wǎng)絡(luò)模型,首次將可學(xué)習(xí)的卷積操作用于圖數(shù)據(jù)之上。自此以后,不斷有人提出改進、拓展這種基于頻域圖卷積的神經(jīng)網(wǎng)絡(luò)模型。但是基于頻域卷積的方法在計算時需要同時處理整個圖,并且需要承擔(dān)矩陣分解時的很高的時間復(fù)雜度,這很難使學(xué)習(xí)系統(tǒng)擴展到大規(guī)模圖數(shù)據(jù)的學(xué)習(xí)任務(wù)上去,所以基于空域的圖卷積被提出并逐漸流行。
2016年,Kipf等人[15]將頻域圖卷積的定義進行簡化,使得圖卷積的操作能夠在空域進行,這極大地提升了圖卷積模型的計算效率,同時,得益于卷積濾波的高效性,圖卷積模型在多項圖數(shù)據(jù)相關(guān)的任務(wù)上取得了令人矚目的成績。
近幾年,更多的基于空域圖卷積的神經(jīng)網(wǎng)絡(luò)模型的變體[16][17][18]被開發(fā)出來,我們將這類方法統(tǒng)稱為GNN。各種GNN模型的出現(xiàn),大大加強了學(xué)習(xí)系統(tǒng)對各類圖數(shù)據(jù)的適應(yīng)性,這也為各種圖數(shù)據(jù)的任務(wù)學(xué)習(xí)奠定了堅實的基礎(chǔ)。
自此,圖數(shù)據(jù)與深度學(xué)習(xí)有了第一次真正意義上的結(jié)合。GNN的出現(xiàn),實現(xiàn)了圖數(shù)據(jù)的端對端學(xué)習(xí)方式,為圖數(shù)據(jù)的諸多應(yīng)用場景下的任務(wù),提供了一個極具競爭力的學(xué)習(xí)方案。
下面,我們給出圖數(shù)據(jù)相關(guān)任務(wù)的一種分類。
1.節(jié)點層面(Node Level)的任務(wù)
節(jié)點層面的任務(wù)主要包括分類任務(wù)和回歸任務(wù)。這類任務(wù)雖然是對節(jié)點層面的性質(zhì)進行預(yù)測,但是顯然不應(yīng)該將模型建立在一個個單獨的節(jié)點上,節(jié)點的關(guān)系也需要考慮。節(jié)點層面的任務(wù)有很多,包括學(xué)術(shù)上使用較多的對論文引用網(wǎng)絡(luò)中的論文節(jié)點進行分類,工業(yè)界在線社交網(wǎng)絡(luò)中用戶標簽的分類、惡意賬戶檢測等。
2.邊層面(Link Level)的任務(wù)
邊層面的任務(wù)主要包括邊的分類和預(yù)測任務(wù)。邊的分類是指對邊的某種性質(zhì)進行預(yù)測;邊預(yù)測是指給定的兩個節(jié)點之間是否會構(gòu)成邊。常見的應(yīng)用場景比如在社交網(wǎng)絡(luò)中,將用戶作為節(jié)點,用戶之間的關(guān)注關(guān)系建模為邊,通過邊預(yù)測實現(xiàn)社交用戶的推薦。目前,邊層面的任務(wù)主要集中在推薦業(yè)務(wù)中。
3.圖層面(Graph Level)的任務(wù)
圖層面的任務(wù)不依賴于某個節(jié)點或者某條邊的屬性,而是從圖的整體結(jié)構(gòu)出發(fā),實現(xiàn)分類、表示和生成等任務(wù)。目前,圖層面的任務(wù)主要應(yīng)用在自然科學(xué)研究領(lǐng)域,比如對藥物分子的分類、酶的分類等。
- 人工智能安全
- 自動駕駛:人工智能理論與實踐
- 解構(gòu)ChatGPT
- 物聯(lián)網(wǎng)之云:云平臺搭建與大數(shù)據(jù)處理
- 量子人工智能
- Python金融大數(shù)據(jù)風(fēng)控建模實戰(zhàn):基于機器學(xué)習(xí)
- 玩轉(zhuǎn)ChatGPT:秒變AI論文寫作高手
- CPS:新一代工業(yè)智能
- 大數(shù)據(jù)智能風(fēng)控:模型、平臺與業(yè)務(wù)實踐
- 智能控制:理論基礎(chǔ)、算法設(shè)計與應(yīng)用
- 巧用ChatGPT快速提高職場晉升力
- 這就是ChatGPT
- 未來制造:人工智能與工業(yè)互聯(lián)網(wǎng)驅(qū)動的制造范式革命
- 人體步態(tài)及行為識別技術(shù)研究(遼寧省優(yōu)秀自然科學(xué)著作)
- 規(guī)則時代:虛擬現(xiàn)實、人工智能和區(qū)塊鏈構(gòu)建的游戲化未來