官术网_书友最值得收藏!

第1章 緒論

1.1 機器視覺

視覺是人類強大的感知方式,它為人們提供了關于周圍環境的大量信息,使人們能有效地與周圍環境進行交互。據統計,人類從外界接收的各種信息中80%以上是通過視覺獲得的,人類有50%的大腦皮層參與視覺功能運轉。

視覺對于多數動物來說有著至關重要的意義。計算機視覺方面的知名學者李飛飛這樣描述:眼睛、視覺、視力是動物最基本的東西。在寒武紀生命大爆發之前,地球上的生物種類稀少,全都生活在水里,都是被動獲取食物的。寒武紀生命大爆發階段,新物種突然增多,在短短的一千萬年里生物種類出現了數十萬倍的增長。寒武紀生命大爆發的原因至今沒有公認的答案,但其中一個觀點是這與視覺有很大關系。牛津大學生物學家Andrew Parker通過研究生物化石發現,5.4億年前三葉蟲最早進化出了眼睛(圖1-1)。動物有了視覺后就能看到食物,然后開始主動捕食,從而有了捕食者與被捕食者之間的復雜行為的演化,使動物種類不斷增多。因此,很多科學家認為生命大爆發始于動物獲得視覺后求生的過程,視覺在生物進化過程中極其重要。

圖1-1 三葉蟲

關于視覺有很多有趣的發現,比如螳螂蝦的眼睛能探測到偏振光。人眼以及普通相機只能感受到光的強度信息而不能探測到光的偏振信息。澳大利亞昆士蘭大學的研究人員發現,螳螂蝦的復眼(見圖1-2)能探測到偏振光。根據生物醫學及光學方面的理論知識,生物組織特性與偏振信息有關,所以螳螂蝦的眼睛是能夠“診斷”出生物組織的病變的(https://phys.org/news/2013-09-mantis-shrimp-world-eyesbut.html)。此外,蜻蜓等昆蟲具有復眼結構(見圖1-3),蜘蛛有很多只眼睛,青蛙的眼睛只能看到動態場景,狗對色彩信息的分辨能力極低。

圖1-2 螳螂蝦的眼睛

圖1-3 蜻蜓的眼睛

那么,介紹完生物的視覺功能之后,什么是機器視覺呢?

機器視覺是機器(通常指數字計算機)對圖像進行自動處理并報告“圖像是什么”的過程,也就是說它用于識別圖像中的內容,比如自動目標識別。

機器視覺一般以計算機為中心,主要由視覺傳感器、高速圖像采集系統及專用圖像處理系統等模塊組成。

根據David A. Forsyth和Jean Ponce的定義,計算機視覺是借助于幾何、物理和學習理論來建立模型,從而使用統計方法來處理數據的工作。它是指在透徹理解相機性能與物理成像過程的基礎上,通過對每個像素值進行簡單的推理,將多幅圖像中可能得到的信息綜合成相互關聯的整體,確定像素之間的聯系以便將它們彼此分割開,或推斷一些形狀信息,進而使用幾何信息或概率統計計數來識別物體。

從系統的輸入輸出方式考慮,機器視覺系統的輸入是圖像或者圖像序列,輸出是一個描述。進一步講,機器視覺由兩部分組成:特征度量與基于這些特征的模式識別。

機器視覺與圖像處理是有區別的。圖像處理的目的是使圖像經過處理后變得更好,圖像處理系統的輸出仍然是一幅圖像,而機器視覺系統的輸出是與圖像內容有關的信息。圖像處理可分為低級圖像處理、中級圖像處理和高級圖像處理,處理內容包含圖像增強、圖像編碼、圖像壓縮、圖像復原與重構等。

1.1.1 機器視覺的發展

圖1-4所示為20世紀70年代至今機器視覺發展過程中的部分主題,包括機器視覺發展初期(20世紀70年代)的數字圖像處理和積木世界,20世紀80年代的卡爾曼濾波、正則化,20世紀90年代的圖像分割、基于統計學的圖像處理以及21世紀計算攝像學與機器視覺中的深度學習等。

1. 20世紀70年代

機器視覺始于20世紀70年代早期,它被視為模擬人類智能并賦予機器人智能行為的感知組成部分。當時,人工智能和機器人的一些早期研究者(如麻省理工大學、斯坦福大學、卡內基·梅隆大學的研究者)認為,在解決高層次推理和規劃等更困難問題的過程中,解決“視覺輸入”問題應該是一個簡單的步驟。比如,1966年,麻省理工大學的Marvin Minsky讓他的本科生Gerald Jay Sussman在暑期將相機連接到計算機上,讓計算機來描述它所看到的東西。現在,大家知道這些看似簡單的問題其實并不容易解決。

圖1-4 機器視覺發展過程中的部分主題

數字圖像處理出現在20世紀60年代。與已經存在的數字圖像處理領域不同的是,機器視覺期望從圖像中恢復出實物的三維結構并以此得出完整的場景理解。場景理解的早期嘗試包括物體(即“積木世界”)的邊緣抽取及隨后的從二維線條的拓撲結構推斷其三維結構。當時有學者提出了一些線條標注算法,此外,邊緣檢測也是一個活躍的研究領域。

20世紀70年代,人們還對物體的三維建模進行了研究。Barrow、Tenenbaum與Marr提出了一種理解亮度和陰影變化的方法,并通過表面朝向和陰影等恢復三維結構。那時也出現了一些更定量化的機器視覺方法,包括基于特征的立體視覺對應(stereo correspondence)算法和基于亮度的光流(optical flow)算法,同時,關于恢復三維結構和相機運動的研究工作也開始出現。

另外,David Marr特別介紹了其關于(視覺)信息處理系統表達的三個層次。

1)計算理論:計算(任務)的目的是什么?針對該問題已知或可以施加的約束是什么?

2)表達和算法:輸入、輸出和中間信息是如何表達的?使用哪些算法來計算所期望的結果?

3)硬件實現:表達和算法是如何映射到實際硬件即生物視覺系統或特殊的硅片上的?相反地,硬件的約束怎樣才能用于指導表達和算法的選擇?隨著機器視覺對芯片計算能力需求的日益增長,這個問題再次變得相當重要。

2. 20世紀80年代

20世紀80年代,圖像金字塔和尺度空間開始廣泛用于由粗到精的對應點搜索。在80年代后期,在一些應用中小波變換開始取代圖像金字塔。

三維視覺重建中出現“由X到形狀”的方法,包括由陰影到形狀、由光度立體視覺到形狀、由紋理到形狀及由聚焦到形狀。這一時期,探尋更準確的邊緣和輪廓檢測方法是一個活躍的研究領域,其中包括動態演化輪廓跟蹤器的引入,例如Snake模型。立體視覺、光流、由X到形狀及邊緣檢測算法如果作為變分優化問題來處理,可以用相同的數學框架來統一來描述,而且可以使用正則化方法增加魯棒性。此外,卡爾曼濾波和三維距離數據(range data)處理仍然是這十年很活躍的研究領域。

3. 20世紀90年代

20世紀90年代,視覺的發展情況如下。

1)關于在識別中使用投影不變量的研究呈現爆發式增長,這種方法可有效用于從運動到結構的問題。最初很多研究是針對投影重建問題的,它不需要相機標定的結果。與此同時,有人提出了用因子分解方法來高效地解決近似正交投影的問題,后來這種方法擴展到了透視投影的情況。該領域開始使用全局優化方法,后來被認為與攝影測量學中常用的“光束平差法”相關。

2)出現了使用顏色和亮度的精細測量,并將其與精確的輻射傳輸和形成彩色圖像的物理模型相結合。這方面的工作始于20世紀80年代,構成了一個稱作“基于物理的視覺(physics-based vision)”的子領域。

3)光流方法得到了不斷的改進。

4)在稠密立體視覺對應算法方面也取得了很多進展。其中最大的突破可能就是使用“圖割(graph cut)”方法的全局優化算法。

5)可以產生完整三維表面的多視角立體視覺算法。

6)跟蹤算法也得到了很多改進,包括使用“活動輪廓”方法的輪廓跟蹤(例如蛇形、粒子濾波和水平集方法)和基于亮度的跟蹤。

7)統計學習方法開始流行起來,如應用于人臉識別的主成分分析。

4. 21世紀

21世紀,計算機視覺與計算機圖形學之間的交叉越來越明顯,特別是在基于圖像的建模和繪制這個交叉領域。另外,計算攝像學發揮越來越重要的作用,包括光場獲取和繪制以及通過多曝光實現的高動態范圍成像。目標識別中基于特征的方法(與學習方法相結合)日益凸顯,更高效的復雜全局優化問題求解算法也得到了發展。

另外一個趨勢是復雜的機器學習方法在計算機視覺中的應用,尤其是近幾年,基于深度學習的機器學習方法在圖像與視頻等方面中的關于目標檢測、跟蹤、理解等領域的應用。

1.1.2 機器視覺與其他領域的關系

機器視覺屬于交叉學科,它與眾多領域都有關聯,尤其是機器視覺與計算機視覺之間的關系,有的學者認為二者一樣,有的則認為二者存在差別,圖1-5顯示了機器視覺與其他領域的關系圖,包括計算機視覺、圖像處理、人工智能、機器人控制、信號處理、成像等。人工智能、機器人控制等概念在相關學科中都有比較明確的定義。成像是表示或重構客觀物體形狀及相關信息的學科。

圖像處理主要是基于已有圖像生成一張新的圖像,可以通過噪聲抑制、去模糊、邊緣增強等處理來實現。模式識別的主要任務是對模式進行分類。機器視覺的核心問題是從一張或多張圖像生成一個符號描述。計算機視覺與計算機圖形學是相互關聯而又互逆的過程。計算機圖形學的目的是真實或非真實地呈現一些場景,即通過虛擬建模等方式對得到的場景進行處理,然后使用計算機進行呈現;而計算機視覺是為了得到真實場景的信息通過采集圖像進行處理。

在數學方法方面,機器視覺用到了連續數學、信號處理、變分法、攝影幾何、線性代數、離散數學的知識,如圖算法、組合優化、偏微分方程、傅里葉變換。某種程度上,機器視覺與汽車工程的研究一樣復雜,它要求研究人員理解機械工程、空氣動力學、人機工程學、電子線路和控制系統等諸多主題。

圖1-5 機器視覺與其他領域關系

主站蜘蛛池模板: 长岛县| 呼图壁县| 佛教| 阿坝县| 嫩江县| 枣强县| 武汉市| 嘉定区| 娄烦县| 长宁区| 筠连县| 昆山市| 松滋市| 纳雍县| 长岭县| 榆中县| 灵璧县| 施秉县| 疏勒县| 保山市| 藁城市| 高阳县| 荆门市| 潮安县| 洪雅县| 甘肃省| 清原| 娄底市| 永川市| 珲春市| 临沭县| 双辽市| 新营市| 奈曼旗| 娱乐| 罗山县| 克山县| 象山县| 北京市| 手机| 上饶县|