- 計算機視覺的對象級場景理解及其應用
- 李青
- 6248字
- 2023-08-28 20:17:44
1.2.2 圖像場景幾何結構估計
圖像是三維客觀世界在二維平面的投影,對圖像場景的全面理解不僅包含理解場景對象,還應包含理解場景對象之間的空間結構關系。圖像場景幾何結構估計是為了理解圖像場景對象的空間關系,包括對象之間的遮擋關系、對象之間的相對位置關系、對象區域深度信息粗略估計等,它建立在對圖像場景對象區域理解的基礎上。
國內外在圖像場景幾何結構估計方面的研究主要集中在遮擋邊界估計[39-41]、圖像深度信息估計[42-44]、三維空間結構估計[45-47]等方面。處理遮擋邊界估計的方法,需要根據底層圖像分割方法得到圖像中的邊界,在此基礎上,估計邊界左右區域的遮擋關系。處理圖像深度信息估計的方法,早期通過建立圖像特征與深度的關聯關系來估計圖像深度信息,后來有學者將圖像場景語義信息用來輔助指導深度信息估計。進入深度學習時代以來,鑒于FCN網絡在場景語義分割方面的優秀表現,FCN也被廣泛應用于其他密集預測任務,例如深度估計。在三維空間結構估計方面,三維空間關系的估計通常伴隨著圖像區域劃分,兩者相輔相成,其中圖像特征起到了約束和指導的作用。
1. 圖像場景遮擋邊界估計方面
二維圖像平面是真實三維世界的投影,由于投影視角原因,三維世界中的物體投影到二維平面時經常會出現遮擋現象。根據心理學理論,遮擋關系會引起人類感知系統對圖像內容產生多種不同的理解。因此,理解圖像場景的層次關系和遮擋關系有助于理解圖像場景背后隱含的三維空間關系。圖像遮擋邊界估計是該領域最早關注的焦點,主要研究工作是對檢測到的邊界進行遮擋關系判定。
1990年,美國哈佛大學的Nitzberg和Mumford在ICCV會議上提出了2.1D sketch概念[39],即將圖像域根據遮擋關系的秩序劃分成不同區域,在分割圖像的同時能夠恢復出基于底層視覺感知的粗略圖像深度信息。2006年,美國加利福尼亞大學伯克利分校的Ren等在ECCV會議上提出一種自然圖像前/背景區域劃分的方法[40],通過一種集成了凸狀和平行特征的局部形狀模式表達方式,在一定程度上恢復出區域的遮擋層次關系。2007年,美國卡內基梅隆大學的Hoiem等在ICCV會議上提出了基于單幅圖像的遮擋邊界恢復方法[41],從人類感知的角度出發,來恢復圖像中的遮擋邊界和垂直無依附物體的粗略深度信息。該方法利用了傳統的邊特征、區域特征,同時還利用了3D平面特征和深度特征,將這些特征用來推理遮擋邊界,同時也能預測出平面的類別,最終將場景中的遮擋邊界以及遮擋邊界兩邊區域的遮擋關系恢復出來。部分結果如圖1-12所示,左列為遮擋邊界恢復結果,右列為深度信息恢復結果。藍色線條代表遮擋邊界,黑色線條代表與地面有接觸的區域邊界。在這種遮擋邊界表示方式中,遮擋邊界上的箭頭代表了遮擋邊界的方向,遮擋邊界左邊的區域遮擋了右邊的區域。在深度圖中,紅色代表像素深度小,藍色代表像素深度大。2009年,卡內基梅隆大學的Stein和Hebert在計算機視覺領域頂級國際期刊IJCV上發表了一種從運動視頻中恢復遮擋邊界的方法[48]。該方法認為,遮擋邊界中包含了豐富的3D結構信息和物體形狀信息,遮擋邊界的準確識別有助于很多計算機視覺領域問題的解決,包括底層圖像處理方面的問題到高層圖像理解方面的問題。2011年,美國加州大學伯克利分校的Sundberg等在CVPR會議上提出一種基于光流的遮擋邊界檢測和前/后景劃分的方法[49]。該方法針對視頻數據,利用了動作線索和光流特征,檢測識別遮擋邊界,并且根據遮擋關系劃分相鄰區域的深度序列,如圖1-13所示。

圖1-12 基于單幅圖像的遮擋邊界恢復[41]

圖1-13 基于光流的遮擋邊界檢測和前/后景劃分的方法[49],左圖為輸入圖像,右圖為該方法遮擋邊界檢測結果,綠色邊界表示前景區域,紅色邊界表示后景區域
2. 圖像場景深度信息估計方面
圖像場景幾何結構估計的第二個方向是從單幅圖像恢復出每一個像素點的深度信息。2005年,美國斯坦福大學的Saxena等在NIPS會議上提出一種基于監督學習的方法來估計單幅圖像場景的深度信息[42]。該方法主要針對室外場景圖像,場景中有樹木、建筑,草地等語義類別,將掃描得到的深度信息作為訓練數據。利用了MRF場結構模型,結合多尺度特征、領域特征,求解得到每點像素的深度信息。如圖1-14所示,該方法采用了三個尺度上的四鄰域特征,通過訓練MRF場結構模型,建立了特征和深度信息的映射關系。2008年,Saxena等將此方法進一步推進,在領域內的國際頂級期刊PAMI上發表了由單幅圖像直接恢復三維場景信息的方法[43],如圖1-15所示,實驗結果與基準深度數據比較接近。

圖1-14 單幅圖像場景深度信息估計方法[42]的四鄰域特征

圖1-15 單幅圖像場景深度信息估計方法結果[43]
2010年,美國斯坦福大學的Liu等在CVPR會議上提出一種基于語義標記預測的單幅圖像深度信息估計方法[44]。他們認為,語義信息對深度估計有重要的指導意義,因此該方法沒有沿用之前由圖像特征直接映射到深度信息的傳統思路,而是首先預測圖像場景每一個像素點的語義標記,然后用語義標記來指導圖像場景三維重建,估計每一個像素點的深度值。在得到每一個像素點的語義標記后,利用該語義類別的深度和幾何信息作為先驗來約束這一類別對應區域像素點的深度估計。舉例來說,天空非常遠,因此天空區域像素的深度值較大。同時,在語義信息的指導下,深度信息可以很容易地通過對象區域外觀特征的度量估計出來。例如,通常情況下,一棵樹的外觀特征在遠處觀察時比較均勻一致,而在近處觀察時會表現出較大的紋理梯度變化。結合像素點之間的鄰居關系、幾何關系、深度先驗、每個點的圖像特征、語義信息和初始深度值,利用MRF模型求解出全局最優解作為圖像最終深度解。該方法取得了很好的深度估計結果,如圖1-16所示,左側為輸入圖像,中間為語義標記結果,右側為深度信息估計結果,其中由紅至藍代表深度由遠及近。

圖1-16 基于語義標記預測的單幅圖像深度信息估計[44]
還有學者提出深度遷移的非參數方法,類似于語義遷移方法。其通常在給定RGB圖像和RGB-D存儲庫的圖像之間執行基于特征的匹配,以便找到最近鄰,然后對檢索到的深度對應圖像進行變形以產生最終深度圖。例如,2014年,澳大利亞國立大學的Liu等在CVPR會議上提出一種離散-連續式單幅圖像深度信息估計方法[50],該方法將場景深度信息估計形式化為離散-連續式的CRF優化問題,以超像素為基本單元,每個超像素內的深度是連續的,超像素之間的深度是離散的,如圖1-17所示。利用檢索的相似圖像的深度構造模型中連續變量的數據項,即單一項;使用離散變量來表達相鄰超像素之間的遮擋關系。然后在這個高階、離散-連續的圖模型上使用粒子置信度傳播(particle belief propagation)來進行推理。

圖1-17 離散-連續式單幅圖像深度信息估計方法[50],左圖為輸入圖像,右圖為對應的離散-連續的深度信息估計結果
近年來,深度學習領域的進步推動了CNN網絡應用于深度估計的研究。2014年,紐約大學的Eigen等人首先提出將CNN應用在單幅圖像稠密深度估計[51]。他們認為場景以及場景中的對象存在尺度上的變化,因此提出一種利用多尺度深度網絡來估計單幅圖像深度信息的方法。具體來說,通過使用兩個深度網絡堆棧來解決該任務:一個是基于整個圖像進行粗略的全局預測,另一個用來局部地改進這種預測,如圖1-18所示。他們的工作后來被擴展到通過用一個更深度、更具辨別力的網絡模型(基于VGG)預測法向量和標簽,然后用一個三尺度體系結構來進一步細化[52]。德國慕尼黑工業大學的Laina等人提出一種包含殘差學習的全卷積結構[53],用于模擬單幅圖像與深度信息之間的模糊映射。為了提高輸出分辨率,該結構使用了一種在網絡中有效學習特征映射上采樣的新方法,另外,通過基于反向Huber函數的損耗優化來訓練網絡,并從理論和實驗兩方面論證了它的有益性。

圖1-18 基于多尺度深度網絡的單幅圖像深度信息估計方法[51],全局粗略尺度網絡包含五個由卷積和最大池化構成的特征提取層以及兩個全連接層,局部細化尺度網絡則由卷積層構成
提高預測深度質量的另一個方向是聯合使用CNN和圖模型。例如,澳大利亞阿德萊德大學研究人員提出了一個深層結構學習機制[54],在一個統一的深層CNN框架下學習連續CRF結構的單一項和二元項勢能(圖1-19)。整個網絡由單一項部分、二元項部分和CRF損失層組成。單一項部分的網絡由5個卷積層和4個完全連通層組成,輸出一個包含n個超像素深度回歸值的n維向量,n為輸入圖像在預處理時得到的超像素數量。二元項部分以所有相鄰超像素對的相似向量作為輸入,并將它們饋送到全連接層(參數在不同的對之間共享),然后輸出包含所有相鄰超像素對的一維相似度向量。CRF損失層將單一項和二元項部分的輸出作為輸入,以求解最優值。在此基礎上,他們進一步提出了一種基于全卷積網絡的快速等效模型和一種新的超像素池化方法[55],該方法在獲得相似預測精度的同時,加速了10倍左右。有了這個更有效的模型,能夠設計非常深入的網絡,以便獲得更好的性能。

圖1-19 基于CNN框架和連續CRF結構的深度估計卷積神經場模型[54]
3. 圖像場景空間結構估計方面
圖像場景幾何結構估計的第三個方向是三維空間結構估計,這種空間結構并非把整個場景完全建模出來,而是將對象或區域之間的空間關系表示出來,形成一種粗略的“場景建模”。有些學者認為,圖像場景三維空間結構估計與圖像分割和區域劃分有著密不可分的關系,兩者具有相輔相成的作用。因此,他們在求解圖像場景三維空間結構的同時,會自動求解出圖像場景的語義分割或者區域劃分。
2010年,美國卡內基梅隆大學的Gupta等在ECCV會議上提出一種物理規則指導下的單幅圖像積木世界搭建方法[45],稱之為“3D解析圖”。該方法基于1960年“積木世界”的思想,以真實世界的物理規律作為約束,以定性的物理單元塊來表達室外圖像場景的三維結構關系,包括對象的質量、體積以及對象之間的物理支撐關系。該方法提出的8個物理單元塊符合全局幾何約束和定性方式的靜力物理學。從一個空的地平面開始,該方法交互地逐步添加物理單元塊來擬合圖像場景中的對象區域,判斷場景幾何和物理屬性的穩定性,直到迭代收斂,最終生成輸入圖像場景的三維結構關系圖,即“3D解析圖”。該方法除了在表面支撐關系估計方面取得了較好的實驗結果,更重要的是,從幾何關系和物理關系的角度詮釋了圖像場景中對象的屬性和關系。如圖1-20所示,左邊為輸入圖像、該圖像的積木模型以及渲染后的結果,右邊展示了輸入圖像的三維結構關系,包括各個物體的體積、質量、視角以及物體之間的幾何關系。該方法所構建的圖像場景“積木世界”,是圖像區域劃分和空間結構估計的聯合表達,為該領域的研究提供了一種新的思路。
另一種思路是利用圖像場景對象的層次結構來指導場景的語義分割和標記。2010年,美國加州大學歐文分校的Yang等在CVPR會議上提出了一種利用層次結構檢測器來指導圖像對象分割的方法[46]。他們首先對輸入圖像做檢測識別,得到若干檢測框,并利用基于局部檢測器響應值的可變形狀模板來估計對象形狀,然后將檢測框的形狀、紋理、深度序列等特征集成在一個簡單的概率模型里。由于圖像自身具有紋理特征,當兩個檢測器有交疊的時候,不同的層次結構會產生不同的語義分割結果。因此,該方法通過迭代地估計對象形狀信息、對象區域紋理特征信息,最終得到對象的語義標記,同時也得到了在該語義標記下,每一類對象所在的層次結構。如圖1-21所示,可視化結果顯示了不同對象所在的層次。該方法的創新點在于將圖像場景對象的層次結構用來指導場景的語義分割和標記。

圖1-20 物理規則指導下的單幅圖像3D解析圖[45]

圖1-21 面向圖像分割的層次結構估計[46]
2010年,美國加州理工學院的Maire在ECCV會議上提出一種基于嵌入角的圖像分割和遮擋邊界估計同時求解方法[47]。Maire認為,根據人類感知的規律,可以將圖像分割和遮擋邊界估計聯合起來求解。該方法提出一種底層圖像特征驅動下的單一框架,通過一種通用表達方式將相似性和序列偏好嵌入到該框架下,由此將問題轉化為角嵌入問題。利用分割線索來推導圖像邊界的前/背景劃分,反過來利用前/背景劃分的線索來推導圖像分割。實驗結果如圖1-22所示,該方法不僅能劃分出對象區域,還能估計出區域邊界的遮擋關系。中間一列顯示了邊界的遮擋關系,綠色線段指向的一端表示前景區域,綠色線段的長度表示遮擋關系的可信度。右邊一列顯示了層次關系,由紅色到藍色表示層次由前到后。

圖1-22 基于嵌入角的圖像分割和遮擋邊界同時求解結果[47]
伊利諾伊大學香檳分校的Hoiem等首次提出布局估計的概念,并在場景結構布局估計上進行了大量的研究,提出從單幅圖像中恢復室內場景空間布局的方法[56,57]。在很多室內場景中,由于物體擺放和視角等原因,場景結構的邊界線經常存在被遮擋的現象,恢復室內場景空間布局即恢復場景結構的地-墻邊界線,通過用參數化的三維“盒子”來建模全局房間空間,為了調整盒子以適應實際場景,引入了一種基于全局透視線索的結構化學習算法選擇最優的三維“盒子”參數[57]。該方法從3D盒子空間布局和像素的表面法向量估計兩個方面,對場景進行聯合建模。3D盒子空間布局粗略地模擬了室內的空間,像素表面法向量標記提供了可視對象、墻、地板和天花板表面的精確定位,兩者相輔相成。表面法向量標記幫助區分位于對象上的線和位于墻上的線,而3D盒子估計為法向量標記提供了強大的約束。通過將這兩個模型結合起來,可以得到更完整的空間布局估計。更進一步,他們結合卷積神經網絡模型將單幅圖像場景空間布局估計推廣到全景圖、透視圖、矩形布局及非矩形的其他布局,提出LayoutNet算法[58],通過具有編碼-解碼結構和跳躍連接的CNN網絡來預測全景圖像交界點和邊界線的概率圖。在預處理時進行邊緣的對齊步驟,確保墻邊界是垂直線,并大大減少預測誤差。在訓練過程中,用回歸的方式優化三維布局損失參數來擬合所預測的交界點和邊界線。LayoutNet取得了優異的效果,同時表明了深度網絡方法仍然受益于顯式的幾何線索和約束,例如消失點、幾何約束等。與LayoutNet類似的工作還有PanoContext[59]、RoomNet[60]、HorizonNet[61]和DuLa-Net[62]。
除了Hoiem及其團隊之外,卡內基梅隆大學機器人研究所團隊多年從事場景物體表面法向量估計方面的研究工作。例如,2014年他們在ECCV會議上提出一種新穎的室內折紙世界的展開方法[65]。該方法認為目前的室內場景三維解析多使用底層和高層特征來推理,忽略了中層特征。三維場景解析需要多顆粒度的特征。對于真實世界中的雜亂場景,三維場景解析在檢測出對象三維立方塊之前,首先應該檢測出場景的表面法向和邊界。因此,該方法針對單幅圖像的三維表面信息估計,利用凸邊和凹邊作為中層約束特征,提出一種通用的模型,能夠將這些約束和其他約束嵌入,以線標記和布局參數化的形式來表示室內場景的表面幾何和表面之間邊的相互關系,以此構成一個類似折紙展開的三維世界,如圖1-23所示。隨著卷積神經網絡在計算機視覺理解方面的應用與發展,該團隊研究人員為了探索深度網絡在法向量估計方面的有效性,提出一種單幅圖像曲面法向量估計的深度網絡設計方法[63],將傳統3D場景理解方面多年的工作經驗引入CNN網絡的結構設計,分別學習自上而下和自下而上的過程,得到粗略的全局理解和局部標記,然后使用融合網絡將兩者整合預測,輸出更合理的結果。該網絡能夠提供有關曲面法向量、室內布局和邊標記的連貫及更深入的理解。該團隊還提出一種基于預訓練Oxford-VGG卷積神經網絡(CNN)的跳躍網絡模型[64],在NYUv2的RGB-D數據集上實現了最先進的表面法線預測精度,并且恢復了精細的物體細節。他們認為,表面法向量、深度信息、空間布局結構都屬于2.5D范疇,利用這些2.5D范疇的信息可以幫助恢復3D信息。因此,他們在輸入圖像和預測曲面法線上建立了一個雙流網絡,用于聯合學習物體的姿勢和樣式,以便進行CAD模型檢索。
分析以上研究現狀發現,不論是遮擋邊界估計、圖像深度信息估計,還是三維空間結構估計方面的研究工作,都認為圖像特征與圖像場景的幾何結構有密切的關系,并且都利用圖像特征從二維信息推理出三維空間結構信息。因此,在圖像場景幾何結構估計中,合理地分析圖像特征所起的作用非常重要。