官术网_书友最值得收藏!

第1章 緒論

1.1 圖像場景內容理解的背景與意義

隨著照相機、攝像機、深度攝像機等設備及其技術的快速發展與應用普及,廣泛存在的圖像、視頻等數據,越來越影響人們的生產和生活。在行業需求的牽引和科技發展的推動下,人們越來越需要理解、處理、加工和利用各種圖像場景內容。例如,在航空航天領域,圖像場景內容理解可以應用于飛行器導航和空間目標探測等;在公共安全領域,圖像場景內容理解可以應用于目標識別、安全監控、事件推演和應急處理等;在文化傳媒領域,圖像場景內容理解可以應用于影視后期制作、場景編輯合成與數字媒體內容處理等;在旅游服務行業,圖像場景內容理解可以應用于景區數字化內容處理與服務推送等。總之,在社會經濟生活的各行各業,圖像場景內容理解均具有廣泛的應用,帶來了巨大的經濟效益。

事實上,圖像場景內容理解已經成為計算機視覺、模式識別、計算攝像學、虛擬現實、計算機圖形學、人工智能等科學研究領域及其交叉方向的國際前沿研究熱點。從相關科學技術研究的國際發展趨勢來看,圖像場景理解不僅包括圖像場景的區域語義理解和劃分,還包括圖像場景的空間結構或者幾何信息估計,以及與此緊密相關的圖像場景內容約束、輔助和驅動下的三維場景模型構建和應用。

如圖1-1所示英格蘭著名畫家喬治·斯塔布斯(George Stubbs, 1724—1806)的名作《大橡樹下的母馬和馬駒》,人眼看到這幅油畫時,可以識別出馬、樹、地面以及遠處的房屋,并分辨出馬的屬性,如馬的顏色、大小、位置、方向等;進一步,人類視覺可以感知這幅油畫所描繪的不同對象在場景中的前后遠近關系,即空間幾何結構關系,如小馬駒站在母馬的前面、母馬站在一棵橡樹的前面。圖像場景內容理解要達到的目標,是讓計算機具有理解圖像場景的能力,能夠像人類一樣理解圖像場景中的內容,包括讓計算機識別出馬、樹、地面以及遠處的房屋,理解馬、樹、地面、房屋的屬性以及它們之間的空間幾何結構關系,這涉及圖像場景語義分割與標記、圖像場景幾何結構估計、對象屬性解析等多方面的研究工作。

圖像場景語義分割與標記是圖像場景內容理解的基礎問題,它的難點在于:如何使計算機識別出不同語義類別的對象,并且準確分割出對象的輪廓區域。由于圖像特征變化多樣,同一種語義類別的對象有可能表現出不相似的外觀特征,不同語義類別的對象也有可能表現出相似的外觀特征。如圖1-1所示,同樣是馬這種語義類別,五匹馬的顏色不一、體態各異;樹與草地是不同的語義類別,但是它們呈現出相似的顏色特征。人類視覺系統可以容易地分辨出不同顏色的馬匹都是馬這種語義類別,也可以分辨出哪些綠色區域是樹、哪些綠色區域是草地,但是對計算機來說這并不是一件容易的事情。

圖1-1 《大橡樹下的母馬和馬駒》(喬治·斯塔布斯)[1]

圖像場景幾何結構估計是圖像場景內容理解的重點問題。圖像是真實世界在二維平面的投影,而這種投影損失了真實世界中對象或物體之間的空間結構信息。由于人體的生理構造,人類視覺系統能夠感知圖像平面內蘊含的空間結構,包括圖像中對象區域之間的遮擋關系、前后關系以及相對深度關系。但是對計算機來說圖像是一堆二維數字,不具有真實的空間結構信息。因此,如何使計算機通過二維信息恢復出圖像場景中對象或區域之間的空間結構關系,是圖像場景幾何結構估計的難點所在。

對象屬性解析是圖像場景內容理解的難點問題,它與圖像場景語義分割與標記、圖像場景幾何結構估計之間相互促進、優化。所謂對象屬性,是指一類事物區別于其他事物的根本特征。通常這些特征與語義是關聯的,是帶有語義的高層特征。對象屬性的研究工作不只局限于對象的識別、場景的分類,還包括利用屬性信息輔助場景內容的分割、解析、生成,是對圖像場景更深層次的理解,具有重要意義。在場景級理解的基礎上,結合更多自然特征和先驗約束,實現對象級圖像內容理解是圖像場景理解下一步發展的趨勢。

針對上述幾個關鍵問題,本書將在后續章節中重點圍繞圖像場景的語義理解、圖像空間的幾何理解、對象級場景解析三個方面詳細闡述,并對相關技術在人工智能領域中的應用進行相應介紹。

主站蜘蛛池模板: 石楼县| 遵化市| 信阳市| 北川| 无锡市| 鄂托克前旗| 海盐县| 闸北区| 长治市| 米林县| 万宁市| 伊春市| 元江| 于都县| 丹寨县| 南澳县| 牙克石市| 宁化县| 汉川市| 隆德县| 南汇区| 炉霍县| 德惠市| 镇平县| 康马县| 江城| 信丰县| 龙口市| 湖北省| 洪洞县| 崇义县| 平乡县| 大宁县| 吉木乃县| 营口市| 孝感市| 鄂伦春自治旗| 琼海市| 安多县| 盈江县| 武隆县|