官术网_书友最值得收藏!

1.2 圖像場景理解的發展歷程

1.2.1 圖像場景語義分割與標記

語義是圖像場景理解的重要因素,它從不同角度連接起了圖像場景理解的多個研究方向,是圖像、語音、文字等多模態信息應用的紐帶。

語義分割,又稱為語義標記,是計算機視覺、圖像處理、場景理解領域的基礎性問題,許多學者致力于該方向的研究并取得了一定的進展。它的目標是對圖像中的每一個像素賦予唯一的語義類別標記。圖1-2所示為圖像場景語義分割的目標,圖1-2a為輸入圖像,圖1-2b為輸入圖像對應的語義分割結果的可視化,其中不同的顏色代表不同的語義類別,如綠色代表草地,藍色代表羊。

圖1-2 圖像場景語義分割目標

早期,學術界較多關注于底層圖像分割,例如,美國加利福尼亞大學伯克利分校的計算機視覺研究小組一直關注于底層圖像分割,并從2000年開始,取得了一系列的研究成果[2-6]。底層圖像分割的目標是把圖像劃分成不同區域,雖然每個區域不具有對象和語義的信息,一個對象有可能被劃分為多個區域,但是至少劃分得到的每個區域內的像素屬于同一個對象。以文獻[3]為例,2003年,該研究小組的成員提出了一種基于分類模型的圖像區域分割方法,該方法適用于二分類的問題。該研究小組成員認為:對于一張圖像,人手標注的分割結果是這張圖像分割結果的正樣本,而另一張不相同的甚至差別很大的圖像的人手標注分割結果對這張圖像分割結果來說是負樣本。基于這種假設,該方法根據信息學理論,分析輪廓、紋理、亮度等格式塔經典特征的作用。最后利用這些特征訓練邏輯回歸分類器,通過分類器求解圖像的分割結果,部分結果如圖1-3所示。可以看到,這種底層分割是區域的劃分,不具有高層的語義信息和對象信息。

同時期,交互式的對象提取與分割成為一種熱門的研究方法,有些學者在這方面進行了很多研究工作,得到的成果包括GrabCut[7]、Lazy Snapping[8]、Geodesic Matting[9]等。2004年,英國微軟劍橋研究院的Rother等提出了GrabCut算法。用戶只需用方框將前景對象框出,在方框以外的像素被默認為是背景區域,前景對象框即是用戶給出的先驗知識。該算法通過構建前景對象和背景區域的GMM模型,自動地將這個方框中的前景對象的區域分割出來,如圖1-4中第一行所示。同年,微軟劍橋研究院的Li等提出Lazy Snapping,即“懶漢摳圖”方法[8]。如圖1-4中第二行所示,在前景和背景上各自標記劃線,這些劃線離真正的邊界有一定的距離。Lazy Snapping算法取樣劃線上的特征,構建前景/背景模型,自動求解前景/背景區域。用戶還可以在此結果上增加交互,對區域邊界進行細微調整,完善分割結果,甚至合成新的場景。類似的方法還有2007年美國明尼蘇達大學Bai和Sapiro提出的基于測地線框架的前景對象提取方法[9]。另外,還有一些交互式的前/背景分割方法[10-12],也取得了較為快速、魯棒的底層圖像分割結果。

圖1-3 底層圖像分割結果[3]

圖1-4 交互式對象提取與區域分割[7-9]

雖然底層圖像分割沒有識別出每個區域的語義信息,只是將具有某種共同屬性的像素劃分為同一個區域,但這為圖像語義分割提供了基礎。隨著底層圖像分割和模式識別技術的發展,這兩者的結合成為一種趨勢。圖像場景語義分割和標記,即同時得到對象的語義和區域輪廓信息,成為計算機視覺熱門的研究方向,并取得了廣泛的關注。

2006年,英國微軟劍橋研究院的Shotton等在ECCV會議(歐洲計算機視覺會議)上提出了一種自動識別并分割對象的方法[13]。該方法作為圖像場景語義分割和標記的經典代表,為該研究方向的發展奠定了基礎。該方法繼承了傳統模式識別的特點,開創性地提出了一種新穎的特征基元texton,并且提出了一種基于特征基元的濾波器texture-layout。特征基元texton包含了圖像中的紋理特征和形狀特征,濾波器texture-layout則隱性地構建了各特征基元texton之間的布局關系layout。利用模式識別的學習算法,分段學習每一部分特征所構建的模型,從而快速學習出每一種語義類別的判別式模型。該方法在訓練的過程中能夠隨機選擇合適的特征,并且分段學習快速得到模型,使得在類別繁多的數據集中求解場景對象分割和標記成為可能。部分結果如圖1-5所示,其中第一行和第三行是輸入圖像,第二行和第四行是對應的語義分割和標記結果,不同顏色對應的語義信息顯示在圖中最下方的條形表中。

圖1-5 Textonboost圖像場景語義分割和標記[13,14]

隨后有學者將這種基于模式識別的思路應用于街景圖像的語義分割。2009年,香港科技大學的Jianxiong Xiao和Long Quan在ICCV會議(國際計算機視覺會議)上提出了一種簡單有效的多視角下街景圖像的語義分割方法[15]。該方法獲取數據的方式是:將數據采集設備固定在汽車上,在汽車沿街行駛時采集街景的2D圖像信息和3D深度信息。為了加速訓練過程和提高識別的準確率,該方法自適應地為輸入圖像選擇相似的街景圖像序列作為訓練數據集,這種提高準確率的訓練方式具有一定的啟發意義(圖1-6)。另外,這種工作框架還能用于實現大數量級3D信息的語義標記。

圖1-6 多視角下街景圖像的語義分割[15]

隨著互聯網技術的發展,網絡逐漸成為一種有效的溝通交流渠道。用戶通過互聯網可以在線共享海量的圖像數據,例如在線下載LabelMe數據集[6]中的圖像。大規模數據的獲得越來越方便,為數據驅動下的非參數模型方法提供了可能性。這種非參數模型方法被應用到圖像場景語義分割和標記中。

2009年,美國麻省理工學院的Liu等在CVPR會議(計算機視覺與圖像識別會議)上提出了一種非參數的場景解析方法(Label Transfer)[17],用于處理場景對象語義識別,并第一次將這種非參數的語義分割方法定義為語義遷移方法。給定一幅輸入圖像,該方法首先利用GIST匹配算法從海量數據集里搜索得到輸入圖像的最相似圖像,稱之為最近鄰圖像;然后利用一種改進的、由粗到細的SIFT流匹配算法對這些最近鄰圖像進行匹配、評分,并根據分值重排序。選擇重排序后的相似圖像作為備選圖像集合。這種SIFT流匹配算法能夠實現兩幅圖像的結構對齊并建立對應關系。基于這種對應關系,將備選圖像集合中相似圖像的語義標記映射到給定的輸入圖像上并進行優化,得到圖像場景語義標記遷移的最終解,即實現了輸入圖像的語義分割和標記。其過程如圖1-7所示,圖1-7a為輸入圖像,圖1-7b為通過SIFT流匹配后的備選圖像集合,圖1-7c為相似圖像的語義標記圖,圖1-7d為求解得到的語義標記結果,圖1-7e為語義標記的groundtruth。Liu等開創性地提出了語義遷移的概念,為后來學者開辟了一條嶄新的路徑,后續有很多該領域的研究工作[18-20]

2010年,美國麻省理工學院的Xiao和香港科技大學的Zhang等在ECCV會議上提出了一種針對街景圖像的有監督的場景語義遷移方法[19]。該方法認為,對于一張輸入圖像,它不一定與數據集中的某一張圖像非常相似,可能只是局部的相似。也就是說,輸入圖像的某些區域分別與數據集中不同圖像的某些區域相似。基于這種假設,該方法認為應該根據數據集中多張不同的圖像來進行語義遷移,而不是僅根據一張最相似的圖像來進行語義遷移,這是該方法與Label Transfer的區別所在。如圖1-8所示,給定一幅輸入的街景圖像,該方法首先從已經手動標好語義標記的數據集中搜索得到多個小型數據集,并且每個小型數據集中都涵蓋了輸入圖像所包含的語義類別。利用該方法提出的KNN-MRF匹配機制,建立輸入圖像和每個小型數據集的對應關系。利用訓練好的分類器對這些對應關系進行分類,舍棄不正確的對應關系。在對應關系分類之后,通過MRF模型優化得到輸入圖像的最終語義標記結果。該方法將監督學習機制和非參數的語義遷移方法相結合,具有一定的借鑒意義。

圖1-7 Label Transfer圖像場景語義遷移結果[17]

圖1-8 街景圖像的語義遷移結果[19]

當一些圖像場景中存在相似的或相同的對象時,將多張圖像中的相似對象同時分割出來成為一種需求和趨勢。微軟劍橋研究院的Rother等提出了對象共分割的概念[21],認為多張圖像相似對象同時分割比單獨一張圖像對象分割時能夠提高分割準確率。此后,許多學者在對象共分割的方向上進行了探索[22-24]。2012年,卡內基梅隆大學的Kim和Xing在CVPR大會上,提出一種多張圖像前景對象共分割方法[25]。該方法針對的情況是,在一個圖像集合中有一些重復多次出現的前景對象,但每一張圖像中不一定包含所有這些前景對象,可能只包含一部分,甚至視角也不同。該方法利用圖像集合中多個前景對象共存在的先驗,通過交互在前景對象模型和區域分配模型之間靈活變化,在公共數據集上取得了不錯的效果,如圖1-9所示。雖然對象共分割取得了一定的發展,但是共分割方法還沒有應用于圖像對象語義分割。

圖1-9 多張圖像前景對象共分割結果[25]

2014年,美國加州大學默塞德分校的Yang等在CVPR會議上,提出一種關注于稀少類別的上下文驅動的場景解析方法[26]。場景中的稀少類別大多是在場景中所占比例較小或者較少的類別,同時這些稀少類別對場景理解的作用非常重要,而目前大多數場景解析的方法忽略了這些稀少類別的語義標記。該方法將語義遷移的方式和增強訓練的方式相結合,如圖1-10所示,根據檢索得到輸入圖像的相似圖像,并增加相似圖像中稀少類別的樣本。在超像素級別的匹配上,該方法利用上下文信息反饋機制增加匹配的準確度,構建MRF模型并求解最終語義標記結果。

卷積神經網絡(Convolutional Neural Networks, CNN)是深度學習的代表算法,近年來廣泛應用于目標檢測、識別、圖像分類方面,取得了突破性的進展,效果顯著提升。卷積神經網絡除了輸入輸出外通常包含卷積層(Convolutional layer)、線性整流層(ReLU layer)、池化層(Pooling layer)和全連接層(Fully-Connected layer)。卷積層的功能是對輸入數據進行特征提取,在感受野區域利用卷積核操作提取局部特征。池化層通過降采樣(downsamples)對卷積層的輸出特征進行選擇,減少模型參數訓練的復雜度,提高所提取特征的魯棒性。全連接層對提取的特征進行非線性組合,以得到回歸分類輸出。

圖1-10 關注于稀少類別的上下文驅動的場景解析方法[26],藍色矩形中為普通類別,黃色矩形中為稀少類別,在右邊的條形類別分布圖中可看到,增強后的稀少類別樣本(黃色)比增強前(藍色)分布更均衡

卷積神經網絡的第一個成功應用是由Yann LeCun提出的LeNet結構[27],應用在手寫字體識別上。此后,卷積神經網絡的特征學習能力得到了關注,并伴隨著龐大的標注數據集的出現以及計算機硬件性能的提高(如GPU),推動了深度學習的發展。ILSVRC(ImageNet Large Scale Visual Recognition Challenge)是近年來視覺領域權威學術競賽之一,競賽使用的數據集ImageNet是由斯坦福大學李飛飛教授等人于2009年提出的,隨后從2010年開始每年舉辦一屆比賽,直到2017年。歷年來的ILSVRC挑戰賽上,不斷涌現出優秀的算法和模型,例如2012年的AlexNet[28]、2013年的ZF Net[29]、2014年的GoogLeNet[30]和VGGNet[31]、2015年的ResNet[32](殘差神經網絡)。

首次在計算機視覺中普及深層卷積網絡的是AlexNet,該網絡的基本架構與LeNet類似,但其網絡結構更深、更大,并成功應用了ReLU、Dropout,取得了遠超第二名的結果。ZF Net是對AlexNet的改進,它調整了結構的參數,通過可視化技術揭示了各層的作用,從而能夠幫助選擇好的網絡結構,并遷移到其他數據集。GoogLeNet是2014年ILSVRC的冠軍,它的主要貢獻是提出了Inception架構,使用已有的稠密組件來近似卷積網絡中的最優局部稀疏結構,大大減少了網絡中的參數數量,更高效地利用計算資源。此外,架構在頂部使用平均池(average pooling)來代替全連接層,消除了大量似乎無關緊要的參數。VGGNet是2014年ILSVRC的亞軍,它證明了通過增加網絡的深度可實現對現有技術性能的顯著改進。該網絡包含16~19層,并且整個網絡都使用了同樣大小的3×3卷積核和2×2池化核。VGGNet遷移到其他數據上的泛化性也比較好,是當前提取圖像特征常用的網絡模型,并且在Caffe中可以下載使用預訓練模型。它的缺點是參數量較多,需要較大的存儲空間(140M)。由微軟研究院Kaiming He等人開發的殘差網絡ResNet是ILSVRC 2015的獲勝者,它的提出是為了簡化深度模型的訓練。它在架構上使用殘差學習,使得網絡深度增加時沒有出現退化問題,讓深度發揮出作用。

卷積神經網絡在目標檢測、識別、分類方面取得了突破性的進展,而語義分割可以認為是一種稠密的分類,即實現每一個像素所屬類別的分類,因此基于卷積神經網絡的語義分割成為自然而然的趨勢。2015年,加州大學伯克利分校的研究人員將卷積神經網絡引入語義分割的領域內,首次提出全卷積網絡(FCN)[33],是語義分割進入深度學習時代的里程碑。FCN網絡結構是不含全連接層的全卷積網絡,把CNN網絡中的全連接層都換成卷積層,這樣就可以獲得二維的特征圖,再利用反卷積層對特征圖進行上采樣,使它恢復到與原圖相同的尺寸進行分類,輸出與原圖大小相同的像素級分類結果,即dense prediction,如圖1-11所示。FCN可以接受輸入任意大小的圖片,不再受限于CNN的區域輸入。

圖1-11 場景語義分割的全卷積網絡FCN[33],將全連接層轉換為卷積層使得分類網絡能夠輸出與圖像相同尺寸的熱圖

雖然FCN實現了基于卷積網絡像素級語義分割的稠密預測,但得到的結果還不夠精細,圖像中的邊緣細節部分比較模糊和平滑,缺少了空間關系的考慮。許多研究人員在CNN和FCN網絡模型的基礎上進行改進,陸續提出了一系列的基于卷積網絡的語義分割算法。

例如,劍橋大學的SegNet網絡[34],由編碼器網絡、相應的解碼器網絡以及像素級分類層組成。其編碼器網絡的結構與VGG16網絡的13個卷積層相同,解碼器網絡的作用是將低分辨率的編碼器特征映射到與輸入相同分辨率的特征圖,以便進行像素級分類,這種映射需要有助于精確邊界定位的特征。SegNet的新穎之處在于,在編碼時為最大池化計算池索引(pooling indices),在對應的解碼時使用池索引來執行非線性上采樣,這樣就不需要訓練學習上采樣,同時改進了邊界劃分。韓國科研人員認為FCN網絡中固定大小的感受野可能引起錯誤的標記,過大的對象可能會標記為不同類別,或者過小的對象被忽略或記為背景。再者,由于輸入到反卷積層的標簽圖過于粗糙、反卷積過程過于簡單,常常會丟失或平滑掉對象的結構細節。因此,他們提出一種多層的反卷積網絡DeconvNet[35]。DeconvNet網絡由卷積網絡部分和反卷積網絡部分組成,卷積網絡部分使用了VGG16,反卷積網絡部分由反卷積(deconvolution)層、上池化(unpooling)層和激活函數(rectifiedlinear unit, ReLU)層組成。訓練好的網絡可以得到實例級的分割結果,然后將這些分割結果進行合并,得到最終的語義分割結果。

DilatedNet[36]是在不丟失分辨率的情況下聚合多尺度上下文信息的卷積網絡模塊,由普林斯頓大學和英特爾實驗室專門為稠密預測而設計。它是一個卷積層的矩形棱鏡,沒有池化或子采樣。該模塊基于擴展卷積,支持感受野的指數擴展,而不損失分辨率或覆蓋范圍,可以以任何分辨率插入現有網絡體系結構。Deeplab[37]是谷歌團隊結合了深度卷積神經網絡(DCNNs)和概率圖模型(DenseCRFs)兩類方法而得到的系列網絡模型,目前已更新4個版本。其主要創新之處在于:①對不同尺度大小的對象,提出多孔空間金字塔池化(ASPP)模塊,在卷積之前以多種采樣率在給定的特征層上進行重采樣;②使用全連接條件隨機場(CRF)來恢復局部結構的細節,將每個像素視為CRF節點,使用CRF推理優化,得到邊緣輪廓更清晰的分割結果。

RefineNet[38]是由澳大利亞阿德萊德大學研究人員提出的一種基于FCN的多路徑優化網絡,他們認為各層的特征都有助于語義分析分割,高層的語義特征有助于圖像區域的類別識別,而低層的視覺特征有助于生成清晰、細致的邊界。因此,RefineNet利用了下采樣過程中的所有可用信息,使用遠程殘差連接實現高分辨率預測,淺層卷積層獲得的細顆粒度特征可以直接以遞歸的方式優化深層獲得的高層語義特征。RefineNet中的所有組件都使用恒等映射的殘差連接,這樣梯度能夠通過短距離和長距離的殘差連接傳播,從而實現高效的端到端訓練。同時還提出了鏈式殘差池化模塊,使用多個窗口尺寸獲得有效的池化特征,并使用殘差連接和學習到的權重融合到一起,從而在較大的圖像區域獲得背景上下文。

通過分析國內外研究現狀發現,在深度學習時代之前,圖像場景語義分割的方法主要分為有參數解析方法和非參數解析方法,這兩類方法基本上都是手工設定所需特征并進行處理,通過構建CRF或者MRF模型來進行優化求解。而前/背景分割方法一般不需要構建CRF或者MRF模型,因此能夠快速得到分割結果,但是這類方法只能處理二類對象的分割問題。因此如何將前兩類方法與后一類方法的優勢相結合,應用到圖像場景語義分割上,成為一個值得考慮的問題。在深度學習時代,卷積神經網絡在特征提取和計算能力上具有顯著的優勢,包括上述典型網絡模型在內的許多基于卷積神經網絡的方法,基本處理方式都是前端使用CNN/FCN進行特征粗提取,后端使用CRF/MRF場結構模型優化前端的輸出,改善前端邊緣細節的劃分,最后得到分割圖。

主站蜘蛛池模板: 青神县| 浪卡子县| 和顺县| 徐水县| 河东区| 资兴市| 涞水县| 长宁区| 即墨市| 永新县| 西畴县| 汪清县| 凤山县| 永仁县| 台中县| 土默特右旗| 丹棱县| 尼玛县| 大关县| 梁平县| 茶陵县| 太白县| 城固县| 黑水县| 涟水县| 星座| 侯马市| 祁门县| 富源县| 大悟县| 邢台县| 漾濞| 台前县| 西华县| 陈巴尔虎旗| 武威市| 洛宁县| 广宗县| 夏邑县| 中方县| 安图县|