- 計算機視覺的對象級場景理解及其應用
- 李青
- 2716字
- 2023-08-28 20:17:40

圖1-1 《大橡樹下的母馬和馬駒》(喬治·斯塔布斯)[1]

圖1-2 圖像場景語義分割目標

圖1-3 底層圖像分割結果[3]

圖1-4 交互式對象提取與區域分割[7-9]

圖1-5 Textonboost圖像場景語義分割和標記[13,14]

圖1-6 多視角下街景圖像的語義分割[15]

圖1-7 Label Transfer圖像場景語義遷移結果[17]

圖1-8 街景圖像的語義遷移結果[19]

圖1-9 多張圖像前景對象共分割結果[25]

圖1-10 關注于稀少類別的上下文驅動的場景解析方法[26],藍色矩形中為普通類別,黃色矩形中為稀少類別,在右邊的條形類別分布圖中可看到,增強后的稀少類別樣本(黃色)比增強前(藍色)分布更均衡

圖1-11 場景語義分割的全卷積網絡FCN[33],將全連接層轉換為卷積層使得分類網絡能夠輸出與圖像相同尺寸的熱圖

圖1-12 基于單幅圖像的遮擋邊界恢復[41]

圖1-13 基于光流的遮擋邊界檢測和前/后景劃分的方法[49],左圖為輸入圖像,右圖為該方法遮擋邊界檢測結果,綠色邊界表示前景區域,紅色邊界表示后景區域

圖1-14 單幅圖像場景深度信息估計方法[42]的四鄰域特征

圖1-15 單幅圖像場景深度信息估計方法結果[43]

圖1-16 基于語義標記預測的單幅圖像深度信息估計[44]

圖1-17 離散-連續式單幅圖像深度信息估計方法[50],左圖為輸入圖像,右圖為對應的離散-連續的深度信息估計結果

圖1-18 基于多尺度深度網絡的單幅圖像深度信息估計方法[51],全局粗略尺度網絡包含五個由卷積和最大池化構成的特征提取層以及兩個全連接層,局部細化尺度網絡則由卷積層構成

圖1-19 基于CNN框架和連續CRF結構的深度估計卷積神經場模型[54]

圖1-20 物理規則指導下的單幅圖像3D解析圖[45]

圖1-21 面向圖像分割的層次結構估計[46]

圖1-22 基于嵌入角的圖像分割和遮擋邊界同時求解結果[47]

圖1-23 室內折紙世界的展開方法,對于輸入圖像(第一行左圖),該方法估計出每個平面的朝向(第一行中圖)以及平面之間邊界的凹凸性(第一行右圖),“+”表示凸,“-”表示凹

圖1-24 基于樣例檢測的區域級圖像解析方法[66]

圖1-25 自主駕駛環境下基于密集連接MRF模型的單張圖像實例級標記方法[70]

圖1-26 相對屬性的研究[95]:相對屬性比絕對屬性能夠更好地描述圖像內容。絕對屬性可以描述是微笑的還是沒有微笑的,但是對于b)就難以描述;相對屬性能夠描述b)比c)微笑多,但是比a)微笑少。對自然場景的理解同樣如此

圖1-27 屬性輔助對象分割的方法[99],由于對象遮擋、對象尺度過小或對象視角的影響,以類別為中心的方法較難描述對象屬性,而以對象為中心的該方法可以較好地描述對象屬性

圖1-28 一種圖像對象和屬性的稠密語義分割方法[102]

圖1-29 交互式場景生成過程示例[115]:第一行,用戶界面的示意圖面板,用戶在其中排列所需對象,不同顏色代表對象的增加或調整;第二行,根據用戶提供的布局自動推斷的場景圖結構;第三行及第四行,根據圖結構生成的場景語義圖及場景最終圖像

圖1-30 基于Voxel單元的圖像場景三維結構理解方法[119],左圖顯示了該方法利用Voxel-CRF模型重建的場景三維結構以及每個Voxel的語義標記,右側圖中顯示了深度信息的不足和缺失,例如電視機后面墻面的深度信息缺失

圖1-31 基于RGBD信息的圖像場景全局解析方法[121],左邊為輸入圖像和對應的深度信息,中間為對象的三維檢測識別結果,用帶有朝向的立方塊來表示,右邊為嵌入了場景和對象之間上下文關系的CRF模型

圖1-32 面向室內場景空間布局估計的曼哈頓交界點檢測方法[123],圖中顯示了Y、W、T、L、X幾種類型的交界點以及圖像場景空間布局估計結果

圖2-1 圖像場景內容上下文指導的場景語義分割方法架構圖

圖2-2 多類別測地線距離示意圖

圖2-3 基于粗略語義概率的種子點選擇示意圖

圖2-4 傳播指示器訓練樣本示意圖

圖2-5 傳播指示器作用示意圖

圖2-6 CamVid數據集上類別準確率對比圖

圖2-7 本方法在CamVid數據集上的部分實驗結果

圖2-8 MSRC數據集上類別準確率對比圖

圖2-9 本方法在MSRC數據集上的部分實驗結果

圖2-10 CBCL數據集上類別準確率對比圖

圖2-11 本方法在CBCL數據集上的部分實驗結果

圖2-12 本方法在LHI數據集上的部分實驗結果

圖2-13 視頻場景語義分割框架圖

圖2-14 基于測地線的MRF模型示意圖

圖2-15 CamVid視頻序列的語義分割實驗結果,前三行是Seq05VD視頻序列的語義分割結果,后三行是Seq06R0視頻序列的語義分割結果

圖3-1 具有歧義的圖像空間關系理解示意圖,a)是輸入的圖像,b)和c)是對輸入圖像的不同理解

圖3-2 基于層次線索的場景分層框架圖

圖3-3 語義線索示意圖

圖3-4 位置線索示意圖

圖3-5 輪廓線索示意圖

圖3-6 公共邊界線索示意圖

圖3-7 交界點線索示意圖

圖3-8 圖像內容表達示意圖

圖3-9 層次排序有向圖

圖3-10 不同數目的特征組合遮擋判別準確率對比圖

圖3-11 31種特征組合在相鄰區域和不相鄰區域的遮擋判別準確率差異

圖3-12 三個數據集上遮擋判定的召回率

圖3-13 LHI自然場景數據集上場景分層結果

圖3-14 LHI人造室內場景數據集上場景分層結果

圖3-15 室外場景數據集上場景分層結果圖

圖3-16 與Hoiem等的遮擋關系判別比較實驗

圖4-1 “對象級”的圖像內容語義標記、以“對象”為單元的場景布局遷移,左圖為圖像,右圖為三維場景布局生成,將左圖的圖像場景布局,自動遷移到由三維模型組成的三維場景

圖4-2 本方法的目標:a)輸入圖像;b)語義分割目標,不同的顏色代表不同的語義類別,這里只顯示了馬這種類別(綠色);c)對象分割目標,不同的顏色代表不同的對象

圖4-3 方法總體流程圖

圖4-4 多尺度對象顯著性檢測示意圖,顏色越淺代表對象顯著性越高,顏色越深代表對象顯著性越低

圖4-5 基于深度識別框架的多實例對象分割方法流程圖

圖4-6 訓練集圖像標注信息

圖4-7 實驗結果圖,以“馬”這種類別為例,其他語義類別可視化為黑色背景,不同的顏色表示不同的“馬”對象

圖4-8 基于深度識別框架DRF的多對象分割方法在Polo數據集上的實驗結果

圖4-9 基于深度識別框架DRF的多對象分割方法在TUD數據集上的實驗結果

圖4-10 圖像內容驅動的室內場景布局遷移方法架構圖

圖4-11 不同類別對象的位置分布可視化,從左至右分別為床、床頭柜、柜子、桌子

圖4-12 對象距離空間示意圖,虛線表示包圍盒,d表示從中心O到角落的距離

圖4-13 基于用戶交互的圖像場景語義分割和布局估計

圖4-14 室內場景布局圖模型表達,三種邊表示三種關系,虛線表示缺少的部分

圖4-15 基于圖模型結構的布局相似性度量

圖4-16 布局規則重要性實驗

圖4-17 單幅圖像場景布局遷移結果

圖4-18 基于單幅圖像的臥室場景布局遷移結果

圖4-19 基于單幅圖像的客廳場景布局遷移結果

圖4-20 基于布局漸變圖像序列集的臥室場景布局遷移實驗

圖4-21 基于布局漸變圖像序列集的客廳場景布局遷移實驗

圖4-22 完備性測試實驗

圖4-23 布局遷移對比實驗

圖5-1 人-物交互三元組<女孩,放,風箏>

圖5-2 一種基于深度上下文注意機制的人-物交互檢測方法

圖5-3 利用人體特征估計目標物體密度

圖5-4 基于級聯方式進行人-物交互識別及關系分割

圖5-5 面向自動駕駛相關技術的公共基準數據集

圖5-6 一種自主駕駛環境下基于密集連接MRF模型的單張圖像實例級標記方法

圖5-7 基于端到端學習模型的對象距離估計,從上到下分別是城市場景、公路場景、彎道場景

圖5-8 基于屬性注意網絡的行人屬性熱圖

圖5-9 面向車輛重識別的姿態感知多任務學習框架,分割片段、關鍵點和覆蓋了姿態信息的合成數據